DD2418 Språkteknologi 6,0 hp

Language Engineering

Kursen i språkteknologi behandlar olika metoder för analys, generering och filtrering av mänskligt språk med fokus på text. Regelbaserade och statistiska metoder används och undersöks till exempel för informationssökning, stavnings- och grammatikkontroll, och textsammanfattning.

Kursen går igenom såväl teori, tekniker som tillämpningsområden. Kursen examineras med laborationer, tenta samt en inlämningsuppgift.

  • Utbildningsnivå

    Avancerad nivå
  • Kursnivå (A-D)

  • Huvudområde

    Datalogi och datateknik
    Informationsteknik
  • Betygsskala

    A, B, C, D, E, FX, F

Kurstillfällen/kursomgångar

Lärandemål

Studenterna skall efter kursen kunna:

  • förklara och använda begrepp inom språkvetenskapens grundläggande nivåer såsom morfologi, syntax, semantik, diskurs och pragmatik,
  • tillämpa kunskap om morfologi, syntax och lexikal semantik för att bygga språkteknologiska system samt förklara uppbyggnaden av existerande system utifrån dessa nivåer,
  • klargöra skillnaderna mellan analys, generering och filtrering med avseende på textbaserade system,
  • använda grundläggande verktyg inom språkteknologin såsom ordklasstaggare, frasanalysverktyg samt olika typer av korpusar och lexikon för att kunna bygga egna program,
  • förklara och använda standardmetoder inom språkteknologin som bygger på såväl regler som statistik och maskininlärning,
  • praktiskt tillämpa metoder som bygger på ändliga automater/transduktorer, kontextfri grammatik, ordfrekvenser, n-gram, samförekomststatistik, Markov-modeller och vektorrumsmodeller,
  • analysera och förklara vilka språkteknologiska problem som går att lösa med tillfredställande resultat samt vilka som ligger bortom forskningshorisonten,
  • förklara i detalj hur en stavningskontroll, grammatikkontroll, någon typ av taggning med hjälp av maskininlärning, stemmer och en algoritm för statistisk utvinning av relaterade ord fungerar,
  • utforma och genomföra enklare utvärderingar av något språkteknologiskt system samt tolka resultaten,
  • självständigt lösa ett välavgränsat praktiskt språkteknologiskt problem eller analysera det genom teoretiska studier,

för att kunna:

  • arbeta på språkteknologiska företag,
  • fortsätta med språkteknologiskt orienterade studier,
  • göra ett examensarbete inom datalogi eller människa-datorinteraktion med en språkteknologisk inriktning,
  • vara en viktig länk mellan systemarkitekter, programmerare och interaktionsdesigner i såväl arbetsliv som forskning.

Kursens huvudsakliga innehåll

Teori:

Språkteknologins historiska utveckling och grunder, morfologi, syntax och semantik, vektorrumsmodeller, utvärderingsmetoder, terminologilära, maskininlärning, informationsteori och Markov-modeller, algoritmer och datastrukturer för kompakt lagring och uppslagning i lexikon.

Tekniker:

Morfologisk analys och generering, språkstatistik och korpusbearbetning, parsning, språkgenerering, ordklasstaggning, namnigenkänning och probabilistisk parsning, statistisk lexikal semantik.

Tillämpningsområden:

Stavnings- och grammatikkontroll, informationssökning, ordprediktion för smart textinmatning, textklustring och textkategorisering, datorstödd språkinlärning, dialogsystem, textsammanfattning, talteknologi, lokalisering och internationalisering.

Behörighet

För fristående kursstuderande krävs 90 högskolepoäng varav 45 högskolepoäng inom matematik eller informationsteknik. Dessutom krävs svenska B eller motsvarande och engelska A eller motsvarande.    

Rekommenderade förkunskaper

Motsvarande någon av kurserna DD1320/DD1321 Tillämpad datalogi, DD1340 Introduktion till datalogi, DD1343 Datalogi och numeriska metoder, del 1, DD1344 Grundläggande datalogi, DD1346 Objektorienterad programkonstruktion samt SF1906 Matematisk statistik eller motsvarande. Förkunskaper i formella språk motsvarande DD2488 Kompilatorkonstruktion eller DD1361 Programmeringsparadigm är önskvärt men inte nödvändigt.

Litteratur

Kurslitteratur meddelas på kursens hemsidan senast 4 veckor före kursstart. Föregående kursomgång användes Jurafsky & Martin, Speech and language processing samt material producerat vid institutionen.

Examination

  • INL1 - Inlämningsuppgift, 1,5 hp, betygsskala: A, B, C, D, E, FX, F
  • LAB1 - Laborationer, 1,5 hp, betygsskala: P, F
  • TEN1 - Tentamen, 3,0 hp, betygsskala: A, B, C, D, E, FX, F

I denna kurs tillämpas skolans hederskodex, se:  http://www.kth.se/csc/student/hederskodex.

Ges av

CSC/Datalogi

Kontaktperson

Johan Boye, e-post: jboye@kth.se

Examinator

Johan Boye <jboye@kth.se>

Övrig information

Kursen har ersatt kursen DH2418 med samma namn från och med läsåret 12/13.

Påbyggnad

Diskuteras med kursledaren.
DT2112 Talteknologi är en möjlig påbyggnad.

Versionsinformation

Kursplan giltig från och med HT12.
Examinationsinformation giltig från och med HT12.