DT2119 Igenkänning av tal och talare 7,5 hp

Speech and Speaker Recognition

Kursens syfte är att ge en systematisk introduktion till talsignalbehandling och taligenkänning. Modeller av talproduktion och talanalys är grunden till förståelsen av taligenkänningsproblemet. Probabilistiska maskininlärningsmetoder används för igenkänningen, inklusive Hidden Markov Models, Gaussian Mixture Models, Support Vector Machines, Deep Neural Networks.

  • Utbildningsnivå

    Avancerad nivå
  • Huvudområde

    Datalogi och datateknik
  • Betygsskala

    A, B, C, D, E, FX, F

Kurstillfällen/kursomgångar

Information för forskarstuderande om när kursen ges

Doktorander kan anmäla sig till doktorandkursen med koden 2F5118. Ett större projekt krävs jämfört med DT2119. 

Lärandemål

Studenten ska efter genomgången kurs kunna

  • använda de i kursen beskrivna metoderna för att känna igen tal eller talare
  • konfigurera ett system till en given applikation
  • anpassa och vidareutveckla befintliga system för tal- och talarigenkänning
  • utvärdera system för tal- och talarigenkänning
  • bedriva forskningsarbete inom området.

Kursens huvudsakliga innehåll

Kursen består av föreläsningar, tre laborationer med inlämingsuppgifter, samt att skriva en uppsats i ett ämne valt i samråd med läraren. Uppsatsen presenteras dessutom muntligt under ett slutseminarium. Laborationerna består i att designa olika delar av en taligenkänningsapplikation, träna systemet och utvärdera dess prestanda.

Följande teoretiska delmoment ingår:

  • algoritmer för träning, igenkänning samt adaption till egenskaper hos talare och transmissionskanal, inklusive mönsterigenkänning, Hidden Markov Models (HMMs) och Deep Neural Networks (DNNs)
  • metoder för att minska känsligheten mot störningar och avvikelser
  • sannolikhetsteori
  • signalbehandling och parameterextraktion
  • akustisk modellering av talljudens statiska och tidsvarierande spektrala egenskaper
  • statistisk modellering av språkbruk i spontant och formellt tal
  • sökstrategier - grundläggande metoder och strategier för stora vokabulärer
  • specifika analys- och beslutsmetoder för igenkänning av talare.

Dessutom ges viss praktisk inblick i att bygga en tillämpning. Här ingår att implementera vissa funktioner utifrån prototyper och att testa dem på riktig taldata.

Behörighet

För fristående kursstuderande krävs 90 hp varav 45 hp inom matematik eller informationsteknik. Dessutom krävs engelska B eller motsvarande.

Rekommenderade förkunskaper

Vissa kunskaper i Maskininlärning, gärna DD2421, DD2434 eller EN2202

Vissa programmeringskunskaper, gärma Python

Vissa kunskaper i signalbehandling

Litteratur

  • Huang, X., Acero, A., Hon, H.-W. Spoken Language Processing – A Guide to Theory, Algorithm and System Development, Prentice Hall, 2001.
  • Automatic Speech Recognition: A deep learning approach, Dong Yu and Li Deng, Springer 2015. You can download the PDF through KTH Library.
  • Research articles in speech recognition

Examination

  • LAB1 - Laboration, 4,5, betygsskala: P, F
  • PRO1 - Projekt, 3,0, betygsskala: A, B, C, D, E, FX, F

Krav för slutbetyg

Laboration
Inlämningsuppgifter
Uppsats med presentation vid ett slutseminarium
Bedömning av två övriga kursdeltagares uppsatser och opposition på deras presentationer.

Ges av

EECS/Intelligenta system

Kontaktperson

Giampiero Salvi, tel: 790 7894, e-post: giampi@kth.se

Examinator

Giampiero Salvi <giampi@kth.se>

Övrig information

Observera att kursen kan komma att ställas in eller genomföras i annan form om antalet anmälda vid ordinarie kursval är för få.

Versionsinformation

Kursplan gäller från och med VT2019.
Examinationsinformation gäller från och med VT2019.