ID2211 Datautvinning, grundkurs 7,5 hp

Data Mining, Basic Course

  • Utbildningsnivå

    Avancerad nivå
  • Huvudområde

    Datalogi och datateknik
  • Betygsskala

    A, B, C, D, E, FX, F

Kurstillfällen/kursomgångar

VT19 för programstuderande

VT20 för programstuderande

Lärandemål

I kursen studeras grunderna i datautvinning inkluderande Informationsnätverksanalys samt även grundläggande tekniker för utvinning och analys av textdata i naturligt språk.

Specifikt täcker kursen grunderna i grafteori, nätverksstruktur och länkanalys samt även grunderna i utvinning och analys av text i naturligt språk.

Efter denna kurs kan studenten utvinna och analysera informationsnätverk och texter i naturligt språk. Speciellt ska studenten kunna

  • sammanfatta och beskriva de fundamentala begreppen i grafteori och tillämpa dem i praktiken för grafanalys
  • sammanfatta och beskriva de fundamentala principerna i analys av naturligt språk och tillämpa dem i praktiken för att utvinna information ur texter
  • elaborera runt och tillämpa algoritmer for massivt länkade dataproblem (till exempel grafklustring, identifiering av "communities" etcetera).

Kursens huvudsakliga innehåll

  • Grundläggande definitioner inom grafteori, starka och svaga band, graddistribution och klustringsmått.
  • Erdos-Renyi, Wats-Strogatz, konfigureringsmodell, effekten av en "liten värld".
  • Slumpmässig grafvandring, Page Rank.
  • Kaskadformat beteende, epidemisk spridning.
  • Algoritmen "Label Propagation", länkprediktion.
  • Distributiv semantik, ordinbäddningar, sentimentanalys.
  • Ämnesmodellering, documentsammanfattning, textsegmenteringsinlärning.

Behörighet

Litteratur

Kursinnehållet är hämtat från följande läroböcker samt även från ett antal forskningsartiklar:

  • John Hopcroft and Ravindran Kanna ”Foundations of Data Science” (2013).
  • David Easley and Jon Kleinberg “Networks, Crowds, and Markets: Reasoning About a Highly Connected World” (2010).
  • A. Rajaraman and J. D. Ullman, Mining of massive datasets. Cambridge University Press, 2012 (alternative: J. Han, M. Kamber, J. Pei, Data Mining: Concepts and Techniques, 3-rd Ed., Morgan Kaufmann, 2012).

Examination

  • PRO1 - Projekt, 3,0, betygsskala: P, F
  • TEN1 - Tentamen, 4,5, betygsskala: A, B, C, D, E, FX, F

Ges av

EECS/Datavetenskap

Examinator

Sarunas Girdzijauskas <sarunasg@kth.se>

Versionsinformation

Kursplan gäller från och med VT2019.
Examinationsinformation gäller från och med VT2019.