Probabilistic Speech & Motion Synthesis
Towards More Expressive and Multimodal Generative Models
Tid: Fr 2025-09-12 kl 13.00
Plats: Kollegiesalen, Brinellvägen 8, Stockholm
Videolänk: https://kth-se.zoom.us/j/69476396694
Språk: Engelska
Ämnesområde: Datalogi
Respondent: Shivam Mehta , Tal, musik och hörsel, TMH
Opponent: Dr Robert A. J. Clark, Google UK
Handledare: Assistant Professor Gustav Eje Henter, Tal, musik och hörsel, TMH; Jonas Beskow, Tal, musik och hörsel, TMH
QC 20250814
Abstract
Mänsklig kommunikation är multimodal och kombinerar tal med gester i samspråk för att förmedla mening, avsikt och känsla. Båda modaliteterna formas av sammanhanget och våra kommunikativa intentioner, och uppvisar stor variation i timing, prosodi och rörelse. Att korrekt syntetisera dessa beteenden från text är ett centralt problem inom artificiell intelligens. Traditionella, deterministiska system lyckas inte fånga denna mångfald, vilket leder till repetitiv och onaturligt utslätade utdata med bristande spontanitet. Denna avhandling bemöter dessa tillkortakommanden genom att utveckla en uppsättning probabilistiska generativa modeller för högkvalitativ, beräkningseffektiv och uttrycksfull syntes av tal och gester från textindata.
Först vidareutvecklar vi probabilistisk talsyntes (engelsk förkortning TTS) genom at integrera neurala dolda Markovmodeller (neurala HMM:er), vilka erbjuder varaktighetsmodeller och monoton matchning mellan utdata och utdata. Detta upplägg ersätter neurala uppmärksamhetsmekanismer i konventionell neural talsyntes med en vänster-till-höger HMM vars fördelningsfunktioner definieras av neurala nätverk och erbjuder robust, dataeffektiv träning med exakt sannolikhetsmaximering och kontrollerbar prosodi. Med denna modell som grund introducerar vi sedan OverFlow, ett ramverk som kombinerar neurala HMM:er med normaliserande flöden för att beskriva den komplexa, icke-Gaussiska fördelningen av akustiska särdrag hos tal. Detta möjliggör probabilistisk modellering och sampling av talakustik med förbättrad sannolikhet och naturlighet. För att erhålla snabbare men likväl uttrycksfull syntes presenterar vi Matcha-TTS, en icke-autoregressivt (engelsk förkortning NAR) TTS-metod som tränas med villkorlig flödesmatchning med optimal transportteori (så kallad OT-CFM). Denna modell kombinerar numeriskt lättlösta ordinära differentialekvationer (ODE) med en beräkningseffektiv transformerarkitektur, vilket avsevärt minskar antalet tidssteg som behövs vid syntes samtidigt som hög perceptuell kvalitet bibehålls. Vi undersöker vidare probabilistisk varaktighetsmodellering i samband med effektiva icke-autoregressiva text-till-talmodeller och visar att probabilistiska modeller signifikant gynnar spontan talsyntes, där det förkommer väsentligt variabel varaktighet och deterministiska modeller underpresterar. Vi expanderar från unimodal till multimodal output genom att utforska samtidig syntes av tal och samtalgester. Diff-TTSG introducerar ett diffusionsbaserat ramverk för at generera dessa två modaliteter parallellt i ett integrerat system med hjälp av dubbla diffusionsprocesser, medan Match-TTSG förbättrar synteshastighet och koherens genom att tillämpa OT-CFM på multimodala data med en gemensam ODE vid probabilistisk syntes. Match-TTSG lär sig den gemensamma fördelningen över ljud- och gestegenskaper, vilket möjliggör synkron och korsmodalt koherent utdata från en enda generativ process. För att hantera bristen på datamängder med alla modaliteter samtidigt lanserar vi Fake it to make it, en tvåstegsstrategi där syntetiska data genererade från kraftfulla modeller av en modalitet i taget används för att förträna ett multimodalt syntessystem, vilket ger förbättrat slutresultat. Slutligen behandlar avhandlingen diskreta modeller av ljuddata och stora språkmodeller (LLM:er i engelsk förkortning). Vi föreslår LM-MSN, som kombinerar kvantisering med flödesmatchningsrekonstruktion för att möjliggöra en diskret ljudrepresentation med låg bithastighet. Detta möjliggör multimodal LLM-träning på sekvenser med både text och diskreta ljudrepresentationer, för förståelse såväl som syntes av ljud. Tillsammans beskriver bidragen i denna avhandling en sammanhängande utveckling från probabilistisk talsyntes till enhetliga multimodala modeller och skalbar diskret modellering. Genom att använda expressiv, generativ modellering för ett flertal modaliteter demonstrerar vi hur probabilistiska metoder kan övervinna begränsningarna hos deterministisk syntes och leda till mer naturlig, kontrollerbar och expressiv kommunikativ AI.