DD2418 Språkteknologi 6,0 hp

Language Engineering

Kursen i språkteknologi behandlar olika metoder för analys, generering och filtrering av mänskligt språk med fokus på text. Regelbaserade och statistiska metoder används och undersöks till exempel för informationssökning, stavnings- och grammatikkontroll, och textsammanfattning. Kursen går igenom såväl teori, tekniker som tillämpningsområden. Kursen examineras med laborationer, tenta samt en inlämningsuppgift.
  • Utbildningsnivå

    Avancerad nivå
  • Huvudområde

    Datalogi och datateknik
    Informations- och kommunikationsteknik
    Informationsteknik
  • Betygsskala

    A, B, C, D, E, FX, F

Kurstillfällen/kursomgångar

VT19 spraktv19 för programstuderande

HT19 sprakt18 för programstuderande

VT20 sprakt20 för programstuderande

HT18 sprakt18 för programstuderande

Lärandemål

Studenterna skall efter kursen kunna:

  • förklara och använda begrepp inom språkvetenskapens grundläggande nivåer såsom morfologi, syntax, semantik, diskurs och pragmatik,
  • tillämpa kunskap om morfologi, syntax och lexikal semantik för att bygga språkteknologiska system samt förklara uppbyggnaden av existerande system utifrån dessa nivåer,
  • klargöra skillnaderna mellan analys, generering och filtrering med avseende på textbaserade system,
  • använda grundläggande verktyg inom språkteknologin såsom ordklasstaggare, frasanalysverktyg samt olika typer av korpusar och lexikon för att kunna bygga egna program,
  • förklara och använda standardmetoder inom språkteknologin som bygger på såväl regler som statistik och maskininlärning,
  • praktiskt tillämpa metoder som bygger på ändliga automater/transduktorer, kontextfri grammatik, ordfrekvenser, n-gram, samförekomststatistik, Markov-modeller och vektorrumsmodeller,
  • analysera och förklara vilka språkteknologiska problem som går att lösa med tillfredställande resultat samt vilka som ligger bortom forskningshorisonten,
  • förklara i detalj hur en stavningskontroll, grammatikkontroll, någon typ av taggning med hjälp av maskininlärning, stemmer och en algoritm för statistisk utvinning av relaterade ord fungerar,
  • utforma och genomföra enklare utvärderingar av något språkteknologiskt system samt tolka resultaten,
  • självständigt lösa ett välavgränsat praktiskt språkteknologiskt problem eller analysera det genom teoretiska studier,

för att kunna:

  • arbeta på språkteknologiska företag,
  • fortsätta med språkteknologiskt orienterade studier,
  • göra ett examensarbete inom datalogi eller människa-datorinteraktion med en språkteknologisk inriktning,
  • vara en viktig länk mellan systemarkitekter, programmerare och interaktionsdesigner i såväl arbetsliv som forskning.

Kursens huvudsakliga innehåll

Teori:

Språkteknologins historiska utveckling och grunder, morfologi, syntax och semantik, vektorrumsmodeller, utvärderingsmetoder, terminologilära, maskininlärning, informationsteori och Markov-modeller, algoritmer och datastrukturer för kompakt lagring och uppslagning i lexikon.

Tekniker:

Morfologisk analys och generering, språkstatistik och korpusbearbetning, parsning, språkgenerering, ordklasstaggning, namnigenkänning och probabilistisk parsning, statistisk lexikal semantik.

Tillämpningsområden:

Stavnings- och grammatikkontroll, informationssökning, ordprediktion för smart textinmatning, textklustring och textkategorisering, datorstödd språkinlärning, dialogsystem, textsammanfattning, talteknologi, lokalisering och internationalisering.

Behörighet

För fristående kursstuderande krävs 90 högskolepoäng varav 45 högskolepoäng inom matematik eller informationsteknik. Dessutom krävs svenska B eller motsvarande och engelska A eller motsvarande.    

Rekommenderade förkunskaper

Motsvarande någon av kurserna DD1320/DD1321 Tillämpad datalogi, DD1340 Introduktion till datalogi, DD1343 Datalogi och numeriska metoder, del 1, DD1344 Grundläggande datalogi, DD1346 Objektorienterad programkonstruktion samt SF1906 Matematisk statistik eller motsvarande. Förkunskaper i formella språk motsvarande DD2488 Kompilatorkonstruktion eller DD1361 Programmeringsparadigm är önskvärt men inte nödvändigt.

Litteratur

Kurslitteratur meddelas på kursens hemsidan senast 4 veckor före kursstart. Föregående kursomgång användes Jurafsky & Martin, Speech and language processing samt material producerat vid institutionen.

Examination

  • INL1 - Inlämningsuppgift, 1,5, betygsskala: A, B, C, D, E, FX, F
  • LAB2 - Laborationer, 4,5, betygsskala: A, B, C, D, E, FX, F

Kursen DD1418 har fram tills nu delat tentamen med DD2418. Studenter som tidigare har inlett DD2418 men ännu inte har klarat tentamensmomentet kan skriva tentamen i DD1418.  Denna möjlighet behålls i två år.

Krav för slutbetyg

För slutbetyg på kursen krävs att studenten har fullgjort momenten INL1 och LAB2. Slutbetyget kommer att vara ett viktat medelvärde av betygen på de två delmomenten.

Ges av

EECS/Intelligenta system

Kontaktperson

Johan Boye, e-post: jboye@kth.se

Examinator

Johan Boye <jboye@kth.se>

Övrig information

 

Påbyggnad

Diskuteras med kursledaren.

DD2476 Sökmotorer och Informationsökningssystem samt DT2112 Talteknologi är möjliga påbyggnadskurser.

Versionsinformation

Kursplan gäller från och med VT2019.
Examinationsinformation gäller från och med VT2019.