DT2119 Igenkänning av tal och talare 7,5 hp

Kursens syfte är att ge en systematisk introduktion till talsignalbehandling och taligenkänning. Modeller av talproduktion och talanalys är grunden till förståelsen av taligenkänningsproblemet. Probabilistiska maskininlärningsmetoder används för igenkänningen, inklusive Hidden Markov Models, Gaussian Mixture Models, Support Vector Machines, Deep Neural Networks.

Information för forskarstuderande om när kursen ges

Doktorander kan anmäla sig till doktorandkursen med koden 2F5118. Ett större projekt krävs jämfört med DT2119.

Om kursomgång

Gäller för kursomgång

VT 2025 Start 2025-03-17 programstuderande

Målgrupp

Sökbar för studenter från årskurs 3 och för studenter antagna på ett masterprogram under förutsättning det kan ingå i ditt program.

Del av program

Masterprogram, datalogi, åk 1, CSCS, Villkorligt valfri

Masterprogram, datalogi, åk 1, CSDA, Rekommenderad

Masterprogram, industriell ekonomi, åk 1, MAIG, Villkorligt valfri

Masterprogram, interaktiv medieteknik, åk 1, Rekommenderad

Masterprogram, interaktiv medieteknik, åk 2, Rekommenderad

Masterprogram, maskininlärning, åk 1, Villkorligt valfri

Masterprogram, systemteknik och robotik, åk 1, RASM, Villkorligt valfri

Perioder

P4 (7,5 hp)

Varaktighet

2025-03-17

2025-06-02

Studietakt

50%

Undervisningsform

Normal Dagtid

Undervisningsspråk

Engelska

Studielokalisering

KTH Campus

Antal platser

Ingen platsbegränsning

Planerade schemamoduler

Kurs-PM

Kurs-PM är inte publicerat

Schema

Schema är inte publicerat

Kursval

Gäller för kursomgång

VT 2025 Start 2025-03-17 programstuderande

Anmälningskod

60201

Kontakt

Gäller för kursomgång

VT 2025 Start 2025-03-17 programstuderande

Kontaktperson

Jonas Beskow (beskow@kth.se)

Examinator

Ingen information tillagd

Kursansvarig

Ingen information tillagd

Lärare

Ingen information tillagd

Rubriker med innehåll från kursplan DT2119 (VT 2020–) är markerade med en asterisk ( )

Innehåll och lärandemål

Kursinnehåll

Kursen består av föreläsningar, tre laborationer med inlämingsuppgifter, samt att skriva en uppsats i ett ämne valt i samråd med läraren. Uppsatsen presenteras dessutom muntligt under ett slutseminarium. Laborationerna består i att designa olika delar av en taligenkänningsapplikation, träna systemet och utvärdera dess prestanda.

Följande teoretiska delmoment ingår:

algoritmer för träning, igenkänning samt adaption till egenskaper hos talare och transmissionskanal, inklusive mönsterigenkänning, Hidden Markov Models (HMMs) och Deep Neural Networks (DNNs)
metoder för att minska känsligheten mot störningar och avvikelser
sannolikhetsteori
signalbehandling och parameterextraktion
akustisk modellering av talljudens statiska och tidsvarierande spektrala egenskaper
statistisk modellering av språkbruk i spontant och formellt tal
sökstrategier - grundläggande metoder och strategier för stora vokabulärer
specifika analys- och beslutsmetoder för igenkänning av talare.

Dessutom ges viss praktisk inblick i att bygga en tillämpning. Här ingår att implementera vissa funktioner utifrån prototyper och att testa dem på riktig taldata.

Lärandemål

Efter godkänd kurs ska studenten kunna

implementera träning och utvärderingsmetoder för taligenkänning
träna och utvärdera en taligenkännare med hjälp av programvarupaket
jämföra olika särdragsextraktions- och träningsmetoder
dokumentera och diskutera specifika aspekter relaterade till tal- och talarigenkänning
granska och kritisera andra studenters arbete i ämnet utifrån litteraturen.

Kurslitteratur och förberedelser

Särskild behörighet

Ingen information tillagd

Rekommenderade förkunskaper

Vissa kunskaper i Maskininlärning, gärna DD2421, DD2434 eller EN2202

Vissa programmeringskunskaper, gärma Python

Vissa kunskaper i signalbehandling

Utrustning

Ingen information tillagd

Kurslitteratur

Ingen information tillagd

Examination och slutförande

När kurs inte längre ges har student möjlighet att examineras under ytterligare två läsår.

Betygsskala

A, B, C, D, E, FX, F

Examination

LAB1 - Laboration, 4,5 hp, betygsskala: P, F
PRO1 - Projekt, 3,0 hp, betygsskala: A, B, C, D, E, FX, F

Examinator beslutar, baserat på rekommendation från KTH:s handläggare av stöd till studenter med funktionsnedsättning, om eventuell anpassad examination för studenter med dokumenterad, varaktig funktionsnedsättning.

Examinator får medge annan examinationsform vid omexamination av enstaka studenter.

Övriga krav för slutbetyg

Laboration
Inlämningsuppgifter
Uppsats med presentation vid ett slutseminarium
Bedömning av två övriga kursdeltagares uppsatser och opposition på deras presentationer.

Möjlighet till komplettering

Ingen information tillagd

Möjlighet till plussning

Ingen information tillagd

Examinator

Jonas Beskow

Etiskt förhållningssätt

Vid grupparbete har alla i gruppen ansvar för gruppens arbete.
Vid examination ska varje student ärligt redovisa hjälp som erhållits och källor som använts.
Vid muntlig examination ska varje student kunna redogöra för hela uppgiften och hela lösningen.

Ytterligare information

Kursrum i Canvas

Registrerade studenter hittar information för genomförande av kursen i kursrummet i Canvas. En länk till kursrummet finns under fliken Studier i Personliga menyn vid kursstart.

Ges av

EECS/Intelligenta system

Huvudområde

Datalogi och datateknik

Utbildningsnivå

Avancerad nivå

Påbyggnad

Ingen information tillagd

Kontaktperson

Jonas Beskow (beskow@kth.se)

Övrig information

Observera att kursen kan komma att ställas in eller genomföras i annan form om antalet anmälda vid ordinarie kursval är för få.

I denna kurs tillämpas EECS hederskodex, se:
http://www.kth.se/eecs/utbildning/hederskodex