DT2119 Igenkänning av tal och talare 7,5 hp
Kursens syfte är att ge en systematisk introduktion till talsignalbehandling och taligenkänning. Modeller av talproduktion och talanalys är grunden till förståelsen av taligenkänningsproblemet. Probabilistiska maskininlärningsmetoder används för igenkänningen, inklusive Hidden Markov Models, Gaussian Mixture Models, Support Vector Machines, Deep Neural Networks.
Information för forskarstuderande om när kursen ges
Doktorander kan anmäla sig till doktorandkursen med koden 2F5118. Ett större projekt krävs jämfört med DT2119.
Välj termin och kursomgång
Välj termin och kursomgång för att se aktuell information och mer om kursen, såsom kursplan, studieperiod och anmälningsinformation.
Kursval
Gäller för kursomgång
VT 2025 Start 2025-03-17 programstuderande
Anmälningskod
60201
Innehåll och lärandemål
Kursinnehåll
Kursen består av föreläsningar, tre laborationer med inlämingsuppgifter, samt att skriva en uppsats i ett ämne valt i samråd med läraren. Uppsatsen presenteras dessutom muntligt under ett slutseminarium. Laborationerna består i att designa olika delar av en taligenkänningsapplikation, träna systemet och utvärdera dess prestanda.
Följande teoretiska delmoment ingår:
- algoritmer för träning, igenkänning samt adaption till egenskaper hos talare och transmissionskanal, inklusive mönsterigenkänning, Hidden Markov Models (HMMs) och Deep Neural Networks (DNNs)
- metoder för att minska känsligheten mot störningar och avvikelser
- sannolikhetsteori
- signalbehandling och parameterextraktion
- akustisk modellering av talljudens statiska och tidsvarierande spektrala egenskaper
- statistisk modellering av språkbruk i spontant och formellt tal
- sökstrategier - grundläggande metoder och strategier för stora vokabulärer
- specifika analys- och beslutsmetoder för igenkänning av talare.
Dessutom ges viss praktisk inblick i att bygga en tillämpning. Här ingår att implementera vissa funktioner utifrån prototyper och att testa dem på riktig taldata.
Lärandemål
Efter godkänd kurs ska studenten kunna
- implementera träning och utvärderingsmetoder för taligenkänning
- träna och utvärdera en taligenkännare med hjälp av programvarupaket
- jämföra olika särdragsextraktions- och träningsmetoder
- dokumentera och diskutera specifika aspekter relaterade till tal- och talarigenkänning
- granska och kritisera andra studenters arbete i ämnet utifrån litteraturen.
Kurslitteratur och förberedelser
Särskild behörighet
Rekommenderade förkunskaper
Vissa kunskaper i Maskininlärning, gärna DD2421, DD2434 eller EN2202
Vissa programmeringskunskaper, gärma Python
Vissa kunskaper i signalbehandling
Utrustning
Kurslitteratur
Examination och slutförande
När kurs inte längre ges har student möjlighet att examineras under ytterligare två läsår.
Betygsskala
Examination
- LAB1 - Laboration, 4,5 hp, betygsskala: P, F
- PRO1 - Projekt, 3,0 hp, betygsskala: A, B, C, D, E, FX, F
Examinator beslutar, baserat på rekommendation från KTH:s handläggare av stöd till studenter med funktionsnedsättning, om eventuell anpassad examination för studenter med dokumenterad, varaktig funktionsnedsättning.
Examinator får medge annan examinationsform vid omexamination av enstaka studenter.
Övriga krav för slutbetyg
Laboration
Inlämningsuppgifter
Uppsats med presentation vid ett slutseminarium
Bedömning av två övriga kursdeltagares uppsatser och opposition på deras presentationer.
Möjlighet till komplettering
Möjlighet till plussning
Examinator
Etiskt förhållningssätt
- Vid grupparbete har alla i gruppen ansvar för gruppens arbete.
- Vid examination ska varje student ärligt redovisa hjälp som erhållits och källor som använts.
- Vid muntlig examination ska varje student kunna redogöra för hela uppgiften och hela lösningen.
Ytterligare information
Kursrum i Canvas
Ges av
Huvudområde
Utbildningsnivå
Påbyggnad
Kontaktperson
Övrig information
Observera att kursen kan komma att ställas in eller genomföras i annan form om antalet anmälda vid ordinarie kursval är för få.
I denna kurs tillämpas EECS hederskodex, se:
http://www.kth.se/eecs/utbildning/hederskodex