Till innehåll på sidan
Till KTH:s startsida

Found speech and humans in the loop

Ways to gain insight into large quantities of speech

Tid: Fr 2022-03-18 kl 14.00

Plats: Kollegiesalen, Brinellvägen 8, Stockholm

Videolänk: https://kth-se.zoom.us/j/62813774919

Språk: Engelska

Ämnesområde: Tal- och musikkommunikation

Respondent: Per Fallgren , Tal-kommunikation

Opponent: Associate Professor Fred Cummins, University College Dublin, Belfield, Dublin, Irland

Handledare: Docent/Associate Professor Jens Edlund, Tal, musik och hörsel, TMH

Exportera till kalender

QC 20220222

Abstract

Funnet data - data som används för något annat än det syfte som det först samlades in för - är värdefullt i många avseenden. Det reflekterar vanligtvis hög ekologisk validitet, det har ett starkt kulturellt värde, och det finns stora mängder att ta del av. Det är dock fyllt av brus, svårt att få en överblick av, och ofta är innehållet inte tydligt. Denna avhandling utforskar metoder som ger insikt i dessa datasamlingar, specifikt vad gäller tal och ljud.

På senare tid har djupinlärning producerat oöverträffade resultat inom tal och språkteknologi. Många av dessa metoder behöver dock väldiga mängder annoterat data, vilket är kostsamt att skapa. Dessutom är maskininlärningsmodeller vanligtvis tränade med väldefinierade problem i åtanke, och presterar sämre inom mer generella uppgifter - såsom att tillhandahålla en övergripande beskrivning av innehållet i en stor ljudfil. Denna observation visar på en brist inom existerande metodologier, således finns det ett behov av vidare tekniker vilket är något som denna avhandling syftar till att täcka.

Ett idealt angreppsätt för dessa problem kombinerar flexibiliteten och den generella intelligensen hos en människa med beräkningskraften och mönsterigenkänningsförmågan hos en maskin. Utifrån dessa idéer utforskar avhandlingen värdet av att inkludera människan i loopen, specifikt utifrån hur insikter om stora insamlingar av funnet tal kan skapas. Huvudidén är således att kombinera tekniker från talteknologi, maskininlärningsparadigm, samt människa-i-loopen-metoder, med det övergripande målet att utveckla och utvärdera nya metoder för utforskandet av stora mängder funnet taldata.

Ett primärt bidrag är Edyson, ett verktyg för snabb genomlyssning och annotering av ljud. Det bygger på tidsmässig isärtagning av ljud i kombination med särdragsextraktion, dimensionsreduceringsalgoritmer, samt en flexibel lyssningsfunktion, vilket ger en användare en informativ överblick av innehållet.

Vidare undersöks crowdsourcing inom kontexten av storskaliga perceptionsstudier och datainsamling av tal och språkdata. Tidigare rapporter som visar på användbarheten av crowd workers är styrkta av avhandlingens bidrag.

Avhandlingsbidragen visar att de undersökta metoderna är lovande alternativ för utforskandet av stora mängder funnet ljuddata och förtjänar vidare uppmärksamhet.

urn.kb.se/resolve?urn=urn:nbn:se:kth:diva-309031