DT2118 Igenkänning av tal och talare 7,5 hp
Speech and Speaker Recognition
Kursens syfte är att ge studenter med grundläggande kunskap i talteknologi en djupare förståelse av metoder för igenkänning av tal och talare.
Utbildningsnivå
Avancerad nivåKursnivå (A-D)
DHuvudområde
Informationsteknik
Betygsskala
P, F
Kurstillfällen/kursomgångar
VT13 TMAIM för programstuderande
Perioder
VT13 P4 (7,5 hp)
Anmälningskod
60353Kursen startar
2013 vecka: 12Kursen slutar
2013 vecka: 21Undervisningsspråk
EngelskaCampus
KTH CampusAntal föreläsningar
20 (preliminärt)Antal övningar
Undervisningstid
DagtidUndervisningsform
NormalAntal platser
Ingen begränsningSchema
Schema (nytt fönster)Lärare
Giampiero Salvi <giampi@kth.se>
Målgrupp
Sökbar för alla program
Modulschema i modul G och H
Del av program
Lärandemål
Studenten ska efter genomgången kurs kunna
- använda de i kursen beskrivna metoderna för att känna igen tal eller talare
- konfigurera ett system till en given applikation
- anpassa och vidareutveckla befintliga system för tal- och talarigenkänning
- utvärdera system för tal- och talarigenkänning
- bedriva forskningsarbete inom området.
Kursens huvudsakliga innehåll
Kursen består av föreläsningar, en laboration, övningar med inlämningsuppgifter samt att skriva en uppsats i ett ämne valt i samråd med läraren. Uppsatsen presenteras dessutom muntligt under ett slutseminarium. En laboration består i att designa en enkel taligenkänningsapplikation, träna systemet och utvärdera dess prestanda.
Följande teoretiska delmoment ingår:
- algoritmer för träning, igenkänning samt adaption till egenskaper hos talare och transmissionskanal, inklusive mönsterigenkänning, Hidden Markov Models (HMM)
- metoder för att minska känsligheten mot störningar och avvikelser
- sannolikhetsteori
- signalbehandling och parameterextraktion
- akustisk modellering av talljudens statiska och tidsvarierande spektrala egenskaper
- statistisk modellering av språkbruk i spontant och formellt tal
- sökstrategier - grundläggande metoder och strategier för stora vokabulärer
- specifika analys- och beslutsmetoder för igenkänning av talare.
Dessutom ges viss praktisk inblick i att bygga en tillämpning med hjälp av programpaketet HTK. Här ingår att skriva en enkel grammatik, specificera akustiska modeller, utföra inspelningar, träning, igenkänningstest och utvärdering.
Behörighet
För fristående kursstuderande krävs 90 hp varav 45 hp inom matematik eller informationsteknik. Dessutom krävs engelska B eller motsvarande.
Litteratur
- Huang, X., Acero, A., Hon, H.-W. Spoken Language Processing – A Guide to Theory, Algorithm and System Development, Prentice Hall, 2001.
- Särtryck på artiklar inom talarigenkänning och andra ämnen som inte ingår i boken.
Examination
- INL1 - Inlämningsuppgift, 3,0 hp, betygsskala: P, F
- INL2 - Inlämningsuppgift, 3,0 hp, betygsskala: P, F
- LAB1 - Laboration, 1,5 hp, betygsskala: P, F
I denna kurs tillämpas skolans hederskodex, se: http://www.kth.se/csc/student/hederskodex.
Krav för slutbetyg
Laboration
Inlämningsuppgifter
Uppsats med presentation vid ett slutseminarium
Bedömning av två övriga kursdeltagares uppsatser och opposition på deras presentationer.
Ges av
CSC/Tal, musik och hörsel
Kontaktperson
Giampiero Salvi, tel: 790 7894, e-post: giampi@kth.se
Examinator
Giampiero Salvi <giampi@kth.se>
Övrig information
Observera att kursen kan komma att ställas in eller genomföras i annan form om antalet anmälda vid ordinarie kursval är för få.
Versionsinformation
Kursplan giltig från och med
HT09.
Examinationsinformation giltig från och med
HT07.
