DD2418 Språkteknologi 6,0 hp
Language Engineering
Kursen i språkteknologi behandlar olika metoder för analys, generering och filtrering av mänskligt språk med fokus på text. Regelbaserade och statistiska metoder används och undersöks till exempel för informationssökning, stavnings- och grammatikkontroll, och textsammanfattning.
Kursen går igenom såväl teori, tekniker som tillämpningsområden. Kursen examineras med laborationer, tenta samt en inlämningsuppgift.
Utbildningsnivå
Avancerad nivåKursnivå (A-D)
Huvudområde
Datalogi och datateknik
Informationsteknik
Betygsskala
A, B, C, D, E, FX, F
Kurstillfällen/kursomgångar
HT13 sprakt13 för programstuderande
Perioder
HT13 P2 (6,0 hp)
Anmälningskod
50129
Kursen startar
2013 vecka: 45
Kursen slutar
2014 vecka: 3
Undervisningsspråk
Svenska
Campus
KTH Campus
Antal föreläsningar
72 (preliminärt)
Antal övningar
Undervisningstid
Dagtid
Undervisningsform
Normal
Antal platser
Ingen begränsning
Schema
Kursansvarig
Johan Boye <jboye@kth.se>
Målgrupp
Obligatorisk för CINEK-DKI.
Sökbar för studenter på civilingenjörsprogram som har uppnått minst 90 hp varav minst 50 hp från årskurs 1.
Sökbar för studenter på masterprogram.Del av program
- Civilingenjör och lärare, åk 4, MADA, Villkorligt valfri
- Civilingenjörsutb i industriell ekonomi, åk 3, DKOI, Obligatorisk
- Kandidatprogram, informations- och kommunikationsteknik, åk 3, Villkorligt valfri
- Masterprogram, datalogi, åk 1, CSCD, Villkorligt valfri
- Masterprogram, datalogi, åk 1, CSCE, Villkorligt valfri
- Masterprogram, datalogi, åk 2, CSCD, Villkorligt valfri
- Masterprogram, datalogi, åk 2, CSCE, Villkorligt valfri
- Masterprogram, maskininlärning, åk 1, MAIA, Villkorligt valfri
- Masterprogram, maskininlärning, åk 2, MAIB, Villkorligt valfri
- Masterprogram, människa-datorinteraktion, åk 2, HCIA, Valfri
- Masterprogram, människa-datorinteraktion, åk 2, HCIB, Valfri
- Masterprogram, människa-datorinteraktion, åk 2, HCIC, Valfri
- Masterprogram, systemteknik och robotik, åk 1, Rekommenderad
- Masterprogram, systemteknik och robotik, åk 2, Rekommenderad
Lärandemål
Studenterna skall efter kursen kunna:
- förklara och använda begrepp inom språkvetenskapens grundläggande nivåer såsom morfologi, syntax, semantik, diskurs och pragmatik,
- tillämpa kunskap om morfologi, syntax och lexikal semantik för att bygga språkteknologiska system samt förklara uppbyggnaden av existerande system utifrån dessa nivåer,
- klargöra skillnaderna mellan analys, generering och filtrering med avseende på textbaserade system,
- använda grundläggande verktyg inom språkteknologin såsom ordklasstaggare, frasanalysverktyg samt olika typer av korpusar och lexikon för att kunna bygga egna program,
- förklara och använda standardmetoder inom språkteknologin som bygger på såväl regler som statistik och maskininlärning,
- praktiskt tillämpa metoder som bygger på ändliga automater/transduktorer, kontextfri grammatik, ordfrekvenser, n-gram, samförekomststatistik, Markov-modeller och vektorrumsmodeller,
- analysera och förklara vilka språkteknologiska problem som går att lösa med tillfredställande resultat samt vilka som ligger bortom forskningshorisonten,
- förklara i detalj hur en stavningskontroll, grammatikkontroll, någon typ av taggning med hjälp av maskininlärning, stemmer och en algoritm för statistisk utvinning av relaterade ord fungerar,
- utforma och genomföra enklare utvärderingar av något språkteknologiskt system samt tolka resultaten,
- självständigt lösa ett välavgränsat praktiskt språkteknologiskt problem eller analysera det genom teoretiska studier,
för att kunna:
- arbeta på språkteknologiska företag,
- fortsätta med språkteknologiskt orienterade studier,
- göra ett examensarbete inom datalogi eller människa-datorinteraktion med en språkteknologisk inriktning,
- vara en viktig länk mellan systemarkitekter, programmerare och interaktionsdesigner i såväl arbetsliv som forskning.
Kursens huvudsakliga innehåll
Teori:
Språkteknologins historiska utveckling och grunder, morfologi, syntax och semantik, vektorrumsmodeller, utvärderingsmetoder, terminologilära, maskininlärning, informationsteori och Markov-modeller, algoritmer och datastrukturer för kompakt lagring och uppslagning i lexikon.
Tekniker:
Morfologisk analys och generering, språkstatistik och korpusbearbetning, parsning, språkgenerering, ordklasstaggning, namnigenkänning och probabilistisk parsning, statistisk lexikal semantik.
Tillämpningsområden:
Stavnings- och grammatikkontroll, informationssökning, ordprediktion för smart textinmatning, textklustring och textkategorisering, datorstödd språkinlärning, dialogsystem, textsammanfattning, talteknologi, lokalisering och internationalisering.
Behörighet
För fristående kursstuderande krävs 90 högskolepoäng varav 45 högskolepoäng inom matematik eller informationsteknik. Dessutom krävs svenska B eller motsvarande och engelska A eller motsvarande.
Rekommenderade förkunskaper
Motsvarande någon av kurserna DD1320/DD1321 Tillämpad datalogi, DD1340 Introduktion till datalogi, DD1343 Datalogi och numeriska metoder, del 1, DD1344 Grundläggande datalogi, DD1346 Objektorienterad programkonstruktion samt SF1906 Matematisk statistik eller motsvarande. Förkunskaper i formella språk motsvarande DD2488 Kompilatorkonstruktion eller DD1361 Programmeringsparadigm är önskvärt men inte nödvändigt.
Litteratur
Kurslitteratur meddelas på kursens hemsidan senast 4 veckor före kursstart. Föregående kursomgång användes Jurafsky & Martin, Speech and language processing samt material producerat vid institutionen.
Examination
- INL1 - Inlämningsuppgift, 1,5 hp, betygsskala: A, B, C, D, E, FX, F
- LAB1 - Laborationer, 1,5 hp, betygsskala: P, F
- TEN1 - Tentamen, 3,0 hp, betygsskala: A, B, C, D, E, FX, F
I denna kurs tillämpas skolans hederskodex, se: http://www.kth.se/csc/student/hederskodex.
Ges av
CSC/Datalogi
Kontaktperson
Johan Boye, e-post: jboye@kth.se
Examinator
Johan Boye <jboye@kth.se>
Övrig information
Kursen har ersatt kursen DH2418 med samma namn från och med läsåret 12/13.
Påbyggnad
Diskuteras med kursledaren.
DT2112 Talteknologi är en möjlig påbyggnad.
Versionsinformation
Kursplan giltig från och med
HT12.
Examinationsinformation giltig från och med
HT12.
