FDT3119 Igenkänning av tal och talare 7,5 hp

Automatic Speech Recognition (ASR) (automatiskt taligenkänning) befattar sig med problem i samband med transkription av tal till skrift. ASR funktionaliteten är vanligtvis integrerat i ett större system som möjliggör för människor att interagera med datorer genom att använda naturligt språk. Ur teknisk synvinkel, ASR problemet presenterar ett antal utmaningar, som uppstår ur behovet av att arbeta med levande signaler producerad av olika individer i olika omständigheter. Lösningar baseras i allmänhet på statistiska modeller och maskin inlärning. Denna kurs ger insikt i signalbehandling och statistiska metoder.

Information per kursomgång

Termin

VT 2026

Information för VT 2026 Start 2026-03-16 programstuderande

Studielokalisering: KTH Campus
Varaktighet: 2026-03-16 - 2026-06-01
Perioder: VT 2026: P4 (7.5 hp)
Studietakt: 50%
Anmälningskod: 11046
Undervisningsform: Normal Dagtid
Undervisningsspråk: Engelska
Kurs-PM: Kurs-PM är inte publicerat
Antal platser: Ingen platsbegränsning
Målgrupp: Ingen information tillagd
Planerade schemamoduler: [object Object]
Schema: Länk till Schema
Del av program: Ingen information tillagd

Kontakt

Examinator

Ingen information tillagd

Kursansvarig

Ingen information tillagd

Lärare

Ingen information tillagd

Kursplan som PDF

Notera: all information från kursplanen visas i tillgängligt format på denna sida.

Kursplan FDT3119 (VT 2019–)

Rubriker med innehåll från kursplan FDT3119 (VT 2019–) är markerade med en asterisk ( )

Innehåll och lärandemål

Kursinnehåll

Kursen består av föreläsningar, tre laborationer med inlämingsuppgifter, samt att skriva en uppsats i ett ämne valt i samråd med läraren. Uppsatsen presenteras dessutom muntligt under ett slutseminarium. Laborationerna består i att designa olika delar av en taligenkänningsapplikation, träna systemet och utvardera dess prestanda.

Följande teoretiska delmoment ingår:

algoritmer for träning, igenkänning samt adaption till egenskaper hos talare och transmissionskanal, inklusive mönsterigenkänning, Hidden Markov Models (HMMs) och Deep Neural Networks (DNNs)
metoder for att minska känsligheten för störningar och avvikelser
sannolikhetsteori
signalbehandling och parameterextraktion
akustisk modellering av talljudens statiska och tidsvarierande spektrala egenskaper
statistisk modellering av språkbruk i spontant och formellt tal
sökstrategier - grundläggande metoder och strategier for stora vokabulärer
specifika analys- och beslutsmetoder for igenkänning av talare

Dessutom ges viss praktisk inblick i att bygga en tillämpning. Har ingår att implementera vissa funktioner utifrån prototyper ocn att testa dem på riktig taldata.

Lärandemål

Studenten ska efter genomgången kurs kunna:

implementera träning och utvärderingsmetoder for taligenkänning
träna och utvärdera en taligenkännare med hjälp av mjukvarupaket
jämfora olika särdragsextraktioner och träningsmetoder
dokumentera och diskutera specifika aspekter relaterade till tal- och talarigenkänning
med hjälp av litteraturen, granska och kritisera andra studenters arbete i ämnet.

Kurslitteratur och förberedelser

Särskild behörighet

Doktorander fran EECS

Rekommenderade förkunskaper

Vissa kunskaper i Maskininlärning, gärna DD2421, DD2434 eller EN2202

Vissa programmeringskunskaper, gärna Python

Vissa kunskaper i signalbehandling

Kurslitteratur

Huang, X., Acero, A., Hon, H.-W. Spoken Language Processing - A Guide to Theory, Algorithm and System Development, Prentice Hall, 2001.

Automatic Speech Recognition: A deep learning approach, Dong Yu and Li Deng, Springer 2015. You can download the PDF through KTH Library.

Research articles in speech recognition

Examination och slutförande

Betygsskala

P, F

Examination

EXA1 - Tentamen, 7,5 hp, betygsskala: P, F

Examinator beslutar, baserat på rekommendation från KTH:s handläggare av stöd till studenter med funktionsnedsättning, om eventuell anpassad examination för studenter med dokumenterad, varaktig funktionsnedsättning.

Examinator får medge annan examinationsform vid omexamination av enstaka studenter.

När kurs inte längre ges har student möjlighet att examineras under ytterligare två läsår.

LABl - Laboration, 4,5, betygsskala: P, F

PROl - Projekt, 3,0, betygsskala: P, F

Övriga krav för slutbetyg

Laboration med muntlig presentation

Forskningsprojekt med skriftlig rapport

Examinator

Jonas Beskow

Etiskt förhållningssätt

Vid grupparbete har alla i gruppen ansvar för gruppens arbete.
Vid examination ska varje student ärligt redovisa hjälp som erhållits och källor som använts.
Vid muntlig examination ska varje student kunna redogöra för hela uppgiften och hela lösningen.

Ytterligare information

Kursrum i Canvas

Registrerade studenter hittar information för genomförande av kursen i kursrummet i Canvas. En länk till kursrummet finns under fliken Studier i Personliga menyn vid kursstart.

Ges av

EECS/Tal, musik och hörsel

Huvudområde

Denna kurs tillhör inget huvudområde.

Utbildningsnivå

Forskarnivå

Övrig information

The course is run in parallel with DT2119. The PhD version of the course requires a larger research project to be agreed with the course responsible.

Forskarkurs

Forskarkurser på EECS/Tal, musik och hörsel

Studier

Stöd och vägledning

IT och digitala tjänster

Kontakt

FDT3119 Igenkänning av tal och talare 7,5 hp

Information per kursomgång

Information för VT 2026 Start 2026-03-16 programstuderande

Kontakt

Kursplan som PDF

Innehåll och lärandemål

Kursinnehåll

Lärandemål

Kurslitteratur och förberedelser

Särskild behörighet

Rekommenderade förkunskaper

Kurslitteratur

Examination och slutförande

Betygsskala

Examination

Övriga krav för slutbetyg

Examinator

Etiskt förhållningssätt

Ytterligare information

Kursrum i Canvas

Ges av

Huvudområde

Utbildningsnivå

Övrig information

Forskarkurs