EQ2321 Tal- och ljudsignalbehandling 7,5 hp

Speech and Audio Processing

Kursen behandlar fundamentala och avancerade signal- och informationsbehandlingsmetoder for tal- och ljudtillämpningar som exempelvis telefonkonversation och musikspelande. Till exempel, vilken information i mänskligt tal behöver extraheras och överföras för att åstadkomma ett effektivt telefonsamtal, och hur detta ska göras.

(1) Grunder inom digital signalbehandling som faltning, Z-transform, Fourier-transform, effektspektrum etc.

(2) Källa-filter modell: analys- och syntesarkitektur.

(3) Källkodning: skalär- och vektorkvantisering, eliminering av redundans, linjär prediktion, kodning i öppen- och sluten loop, kodningsbrus, kodningsförstärkning.

(4) Tal- och ljudkodning: vocoders, låg- och högbitshastighetskoder, upplevelsebaserad ljudkodning, psykoakustiska principer.

(5) Tal- och ljudförbättring, minsta-medel-kvadrat skattning, linjär estimering för Gaussiska fördelningar, Wiener-filtrering, effektspektrums-subtraktionsmetoder, spektralbandsreplikering etc. 

  • Utbildningsnivå

    Avancerad nivå
  • Huvudområde

    Elektroteknik
  • Betygsskala

    A, B, C, D, E, FX, F

Kurstillfällen/kursomgångar

Lärandemål

Efter avklarad kurs skall studenterna kunna:

* översiktligt beskriva hur människan producerar tal och hur uttalet av olika talljud bestämmer ljudens akustiska egenskaper.

* tillämpa datorverktyg (såsom MatLab eller Python) för att analysera tal- och ljudsignaler i tids- och frekvensdomän, samt i form av parametrar i en källa-filter-modell av talproduktionen.

* kritiskt analysera, jämföra och implementera metoder och system för effektiv kodning av tal- och ljudsignaler, samt konstruera effektiva kodningslösningar.

* analysera och jämföra och implementera metoder för förbättring (t.ex.

störningsundertryckning) av tal- och ljudsignaler is störande/brusiga miljöer.

Kursens huvudsakliga innehåll

Kursen behandlar fundamentala och avancerade signal- och informationsbehandlingsmetoder for tal- och ljudtillämpningar som exempelvis telefonkonversation och musikspelande. Till exempel, vilken information i mänskligt tal behöver extraheras och överföras för att åstadkomma ett effektivt telefonsamtal, och hur detta ska göras.

(1) Grunder inom digital signalbehandling som faltning, Z-transform, Fourier-transform, effektspektrum etc.

(2) Källa-filter modell: analys- och syntesarkitektur.

(3) Källkodning: skalär- och vektorkvantisering, eliminering av redundans, linjär prediktion, kodning i öppen- och sluten loop, kodningsbrus, kodningsförstärkning.

(4) Tal- och ljudkodning: vocoders, låg- och högbitshastighetskoder, upplevelsebaserad ljudkodning, psykoakustiska principer.

(5) Tal- och ljudförbättring, minsta-medel-kvadrat skattning, linjär estimering för Gaussiska fördelningar, Wiener-filtrering, effektspektrums-subtraktionsmetoder, spektralbandsreplikering etc.

Kursupplägg

Kursen ges över en period (typiskt 8 läsveckor). Preliminärt består den av 14 föreläsningar och 10 räkneövningar.

Behörighet

För fristående kursstudent: 120 hp samt Engelska B eller motsvarande

Rekommenderade förkunskaper

Rekommenderade förkunskaper: EQ1220 Signalteori alt. EQ1270 Signalbehandling eller motsvarande.

Litteratur

Annonseras på kurshemsidan innan kursstart. Preliminärt: 

(1)                 Digital speech transmission: Enhancement, coding and error concealment.  Av  Peter Vary och Rainer Martin.

(2)                 Perceptual coding of digital audio. Av Ted Painter och Andreas Spanias.

(3)                 Anteckningar från läraren. Dessa kan laddas ner från hemsidan

(4)       Några forskningsartiklar.

Examination

  • PRO1 - Projekt 1, 1,5, betygsskala: A, B, C, D, E, FX, F
  • PRO2 - Projekt 2, 1,5, betygsskala: A, B, C, D, E, FX, F
  • TEN1 - Tentamen, 4,5, betygsskala: A, B, C, D, E, FX, F

Krav för slutbetyg

Det är tre former av examination i kursen.

(1) Kontrollskrivningar: Det är två kontrollskrivningar under kursens gång. Varje prov är 20-30 minuter. De syftar till att testa förståelse av koncept och kontinuerligt lärande av materialet i kursen. Skrivningarna består av korta konceptfrågor och inga komplicerade problem. Betyg A-F.

(2) Projekt: Det är två projekt som examineras genom presentationer. Projekten kan genomföras i grupper om två personer men betygsätts individuellt. Betyg A-F.

(3) Tentamen: En skriftlig tentamen. Betyg A-F.

Slutbetyget på kursen baseras på en sammanvägd bedömning, där examinatorn anger viktningen.

Kontrollskrivnignarna är ej obligatoriska för att klara kursen men har betydelse för slutbetyget. Projekten och den skriftliga tentamen är obligatoriska.

Ges av

EECS/Intelligenta system

Examinator

Saikat Chatterjee <sach@kth.se>

Versionsinformation

Kursplan gäller från och med VT2019.
Examinationsinformation gäller från och med VT2019.