Till innehåll på sidan
Till KTH:s startsida Till KTH:s startsida

Den talande maskinen

Publicerad 2018-04-04

I dagens moderna samhälle har vi vant oss vid talsyntes, bland annat genom GPS och telefonväxlar. Men allt började med att KTH-professor Gunnar Fant funderade på om det gick att bygga en maskin som låter som en människa. Resultatet blev datorn OVE.

– I love you.
Gammal kärlek rostar aldrig. För trots att inspelningen är gammal och rösten låter en aning metallisk är det något visst med att lyssna på OVE:s kärleksförklaring.

Kanske för att rösten kommer från en maskin och inte en människa. OVE är nämligen en av världens första talande maskiner.

Namnet står för Orator Verbis Electris, men upphovsmannen Gunnar Fant har berättat att det egentligen uppstod när han, tillsammans med OVE, blev intervjuad i radio och fick frågan om maskinen hade ett namn.

Med hjälp av maskinens datormusliknande verktyg kunde han manövrera fram namnet OVE. Eftersom OVE bara kunde uttala vokaler och vissa konsonanter, som v och l, gällde det att välja ett namn som fungerade.

Gunnar Fant var elektroingenjör med examen från KTH, sedermera också professor emeritus på skolan.
Det var han som 1951 grundade KTH:s institution för Tal, musik och hörsel eller "Taltransmissionslaboratoriet" som den hette då.

Forskare och kollegor på KTH vittnar om en vänlig och timid man med ett engagemang så stort att han blev kvar på institutionen praktiskt taget fram tills han gick bort för nio år sedan, 89 år gammal.

I dag är talsynteserna så utvecklade att det i vissa fall är svårt att avgöra om rösten kommer från en människa eller en robot, till exempel i Googles Tacotron.
Hemligheten ligger både i hur fonemen sätts ihop och i att orden betonas rätt.

Prosodi, det vill säga intonation och betoning i talet, var något som Gunnar Fant redan på sin tid intresserade sig för.
Han utförde tidiga studier av hur betoningen uppfattades, och i dag är samma fråga i högsta grad aktuell.

Joakim Gustafson, avdelningsföreståndare och forskare på KTH:s institution för tal, musik och hörsel, är delaktig i ett nytt, omfattande talsyntes-projekt.

Det handlar om att med hjälp av talsyntes göra Wikipedias innehåll tillgängligt för personer som har läshinder, och därmed svårt att ta till sig en text.
Men för att vara till hjälp är det viktigt att programmet lägger betoningen rätt i varje ord.

Därför arbetar projektgruppen nu fram en syntes där man kan kontrollera prosodin (ljudegenskaperna).

Syntesen grundar sig på många timmars inläsningar där man sett till att alla kombinationer av språkljud finns med.
Detta gör att man får många exempel av samma sak, men med olika prosodi. Ett exempel är ordet ”som”.

”Som” kan stå för sig självt, eller användas i början av ett ord – sommar – eller i mitten – insomnia – eller i slutet – eftersom.
Betoningen skiljer sig åt tillräckligt för att det skulle störa lyssnaren om den var samma i de olika exemplen.

Gunnar Fant var pionjär inom talforskningsområdet. Tillsammans med sin vapendragare Johan Liljencrants utvecklade han den så kallade LF-modellen; en matematisk formel som används för att efterlikna hur luftflödet ser ut när stämbanden vibrerar.

Modellen används än i dag av forskare världen över. Under de 67 år som har gått sedan institutionen bildades har också forskningen utvecklats, och nya områden har blivit intressanta att undersöka.

– Deras forskning handlade främst om att förstå hur produktion och perception av tal fungerar. I dag forskar vi också om hur talet används i interaktion, där även sättet man talar på behöver förstås, så att man också kan fånga talarens sinnesstämning, säger Joakim Gustafson.

Samtidigt som tekniken i samhället utvecklas blir ämnet ”tal” en allt större del av vår vardag. När vi kör bil hjälper GPS:ens röst oss att navigera.

Vi kan använda röststyrning för att få hjälp av en reseplanerare, eller för att via en automatisk telefonväxel nå fram till rätt avdelning på ett företag.

Iphone-användare kan få hjälp av Siri, telefonens artificiella assistent. Man skulle kunna tro att våra smarta telefoner har gjort att vi inte längre behöver röststyrningen. Men tvärtom har telefonerna gett röststyrningen ett uppsving.

– Det blir jobbigt att sitta och knappa för länge på telefonen, men genom att införa smarta assistenter i telefonen kan vi få hjälp med vår vardag.

– Vi ska ju inte peta med telefonen när vi kör bil, och då kan vi med rösten be telefonen att hjälpa oss att navigera eller att ringa upp en person, förklarar Joakim Gustafson.

Och talsyntes kan användas till så mycket mer.
– Talsyntes kan redan i dag hjälpa människor som har kognitiva funktionsnedsättningar eller nedsatt syn. Till exempel kan en synskadad person få morgontidningen eller viktig samhällsinformation uppläst för sig.

– Vi forskar även på att ta fram metoder som gör att man via röststyrning kan upptäcka om en person är på väg att få demens, berättar Joakim Gustafson.

En talande robot kan exempelvis hjälpa till att utföra minnestester. I stället för att utföra testet på sjukhus en gång om året kan roboten hjälpa till att göra testet i hemmet och med tätare intervall.

För att en robot ska bli en avlastning och en tillgång i vardagen behöver den också vara programmerad för att ”läsa av” människor.

– Roboten behöver kunna känna av vilket humör användaren är på. Om du hade en robot hemma som upprepade samma sak i samma ton varje dag skulle du bli tokig. Därför är det viktigt att den är programmerad för att prata med dig på ett sätt när du är glad och på ett annat sätt, eller kanske inte alls, när du är sur.

En robot måste finnas på användarens villkor, säger Joakim Gustafson. Då kan den vara till stor hjälp.

På KTH pågår utveckling av en robot som kan fungera som coach för barn med autism. Roboten kan också mäta interaktionen mellan till exempel två barn i en undervisningssituation.

– Om det ena barnet tar över mer och inte släpper fram det andra kan roboten medla och lyfta fram det andra barnet genom att till exempel ställa frågor som just det barnet ska svara på.

I dag pratar inte datorn OVE längre. Rösten tystnade i samband med att en tidigare servicetekniker gick i pension.

Den inspelade kärleksförklaringen går emellertid fortfarande att lyssna på via nätet, och maskinen finns bevarad på institutionen.

I dag går i stället Furhat, som är en mer människoliknande prototyp, i fronten för KTH:s talforskning. Furhat ska utvecklas till en maskin med så stor social kompetens att vi människor ska kunna interagera med den på samma sätt som med andra människor.

Ja, det har onekligen hänt mycket sedan OVE föddes, men en sak gäller fortfarande: tillvaron kan underlättas om vi har någon att prata med, oavsett om det är en människa eller en maskin.

FAKTA

Den svenska accenten

Tack vare sin framstående forskning satte Gunnar Fant också den svenska accenten på världskartan – forskare världen över använde nämligen gärna hans data i sina talsynteser.

Lyssna på OVE

En tidigare inspelning av OVE finns att lyssna på här  (https://www.cs.indiana.edu/rhythmsp/ASA/partA.html)

Lyssna på Tacotron

Den mer moderna talsyntesen Tacotronkan du lyssna på här (https://google.github.io/tacotron/publications/tacotron2/index.html)

Kan du avgöra vilken av de två versionerna som är en inspelad röst och vilken som är konstruerad av en robot?

Fler talande maskiner

OVE var en av världens första talande datorer, men redan i slutet av 1700-talet kom den första talande maskinen, konstruerad av den ungerska uppfinnaren Wolfgang von Kempelen.
Den var byggd för att med hjälp av en bälg och ett rör imitera människans talorgan.
Därefter konstruerades flera maskiner som, liksom Ove, manövrerades med hjälp av ett tangentbord.
 

Text Johanna Lundeberg

Foto KTH CSC

KTH Magazine 04 APRIL, 2018

Innehållsansvarig:redaktion@kth.se
Tillhör: Om KTH
Senast ändrad: 2018-04-04