Hva er Speech Synthesis?

February 24

Talesyntese, det handler om kunstig produsere den menneskelige stemme, har utallige bruksområder i verden i dag. Disse systemene kan enten snakke med noen, som i et dataspill eller på en telefon talemelding, eller de kan også snakke for noen, for eksempel for de som lider av nevrologiske lidelser. Mens teknologien kan virke nyskapende og futuristisk, den har en rik historie, og kan dateres tilbake til det 18. århundre.

tidlig historie

De tidligste forsøkene på talesyntese oppsto i form av mekaniske enheter fra det 18. århundre. I 1770, Christian Gottlieb Kratzenstein laget en kopi av den menneskelige talekanalen ved å koble resonans rør til orgelpiper. Denne enheten var i stand til effektivt å produsere menneskelige vokallyder. Kort tid etter, i 1791, Wolfgang von Kempelen publisert en artikkel som beskriver en belg drevet enhet, komplett med en kunstig munn, nese og en justerbar vokal siv, for å produsere intonasjon. Ved å manipulere munn og nese, kan operatøren nå lage mange konstantlyder, i tillegg til vokallyder.

Tidlig Elektrisk Modell: The VODER

Med bruk av elektroteknikk gjennombrudd tidlig i det 20. århundre, talesyntese var nå mulig med elektriske signaler. Homer Dudley presenteres den mest bemerkelsesverdige enhet av denne typen, Voice Operating Demonstrator (VODER), på verdensutstillingen i 1939. Operatøren av VODER manipulert to lydkilder å syntetisere tale: en "avslappet oscillasjonen" skapt stemte lyder, for eksempel "aaaa", og en "tilfeldig støykilde" produsert ustemte lyder, for eksempel "ssss". Ved å manipulere amplitude og frekvens av disse lydkilder, kan et høyt utdannet operatør gjenskape hele setninger.

Modern Speech Synthesis: Tekst-til-tale (TTS)

Epoken med moderne talesyntese, nå vanligvis kalles "tekst-til-tale" --- også ofte kalt "TTS," begynte i 1980, da Dennis Klatt, professor ved Massachusetts Institute of Technology, revolusjonert vitenskapen med sin forskning som fører til TTS talesyntese, MITalk. Disse nye systemene bruker en mye mer sofistikert måte å syntetisere tale enn sine forfedre, med fokus på å snu skrevet tekst til en audio bølgeform. Fremgangsmåten er todelt: TTS-systemet må først brytes ned teksten inn i en intern representasjon av de forskjellige lyder som er knyttet til hvert ord. For eksempel ordet "April" vil bli oversatt til lydene "ey / p / r / ih / l." Denne del av prosessen kalles tekst analyse. Når teksten analysen er ferdig, må TTS-systemet sette de ulike lydene sammen for å lage en lyd bølgeform som kan spilles av via en høyttaler. Denne del av prosessen kalles "bølgeform syntese". Mens midlene for tekst analyse er meget lik på tvers av TTS plattformer, kan midlene for bølgeformsyntese variere fra en av tre forskjellige måter.

Waveform Synthesis i moderne systemer

Moderne talesyntese systemer benytter en av tre former for bølgeform syntese: concatenative syntese, formant syntese og artikula syntese. Den mest fremtredende av disse tre metodene, concatenative syntese, bruker biblioteker av innspilt tale. Den festes disse lyd biter sammen i henhold til den interne representasjon funnet under teksten analysefasen og gjelder intonasjon og lengde til hver tekstutdrag. Dette gir en sammenhengende, forståelig og menneskelig-klingende stemme. Format syntese, på den annen side anvender en tilsvarende fremgangsmåte til den VODER. Det manipulerer kunstige lyder for å skape en tilnærming av den menneskelige stemme, mens artikulasjon syntese forsøker å gjenskape mekanismene for den menneskelige vokal tarmkanalen. Format syntese, mens produsere forståelig tale, produserer en robot stemme, men er i stand til å vise et bredt spekter av følelser.

fremtidige Applications

Mens dagens talesynteser systemer er fokusert primært på å oversette skrevet tekst til hørbar tale, er en av de endelige målene for vitenskapen tale-til-tale-teknologi. Dette kombinerer tekst-til-tale-teknologi med stemmegjenkjenning og oversettelsesteknologi. Med tale-til-tale, kan to personer som snakker på forskjellige språk forstår hverandre i sanntid, som en datamaskin umiddelbart oversfremmedspråket i hver lytterens morsmål.