Text-To-Speech And Back Again With AWS (Part 2) — Smashing Magazine

Artikeln, del två i en serie om text-till-tal och tal-till-text med AWS, fokuserar på att använda tal-till-text för att transkribera ljudkällor som podcaster och intervjuer. Den undersöker noggrannheten hos AWS-tjänsten Amazon Transcribe och konstaterar att trots dess snabbhet och låga kostnad, har den svårt att korrekt återge mänskligt tal. Författaren testar olika metoder, inklusive förbättrad mikrofonkvalitet och filuppladdning, men dessa förbättrar inte transkriptionskvaliteten nämnvärt. Trots brister i noggrannhet lyfts fördelar som realtidsgenerering, låg kostnad och tillgång till detaljerad JSON-data med konfidenspoäng för vidare bearbetning fram.