ID2222 Datautvinning 7,5 hp

Data Mining

  • Utbildningsnivå

    Avancerad nivå
  • Huvudområde

    Datalogi och datateknik
  • Betygsskala

    A, B, C, D, E, FX, F

Kurstillfällen/kursomgångar

HT19 för programstuderande

HT18 för programstuderande

Lärandemål

Kursen behandlar fundamenta inom datautvinning, bearbetning av dataströmmar, och maskininlärningsalgoritmer för att analysera mycket stora datamängder. Vi använder plattformar för storskaliga datamängder, såsom MapReduce, Spark och Apache Flink, för att implementera parallella algoritmer, och även beräkningssystem för bearbetning av dataströmmar, såsom Storm och InfoSphere.

Efter denna kurs kommer studenterna att kunna utföra datautvinning på olika typer av data, till exempel data av högre dimension, grafdata och infinita/icke-avslutade data (dataströmmar); liksom att programmera och bygga tillämpningar inom datautvinning. De förväntas också att kunna lösa problem i praktiska tillämpningar, till exempel rekommendationssystem, associationsregler, länkanalys, och detektion av duplikat. Dessutom kommer de att behärska olika matematiska tekniker till exempel linjär algebra, optimering, och dynamisk programmering.

Kursens huvudsakliga innehåll

  • Introduktion till datautvinning
  • Frekventa Itemmängder
  • Att hitta liknande enheter
  • Klustring
  • Rekommendationssystem
  • Datautvinning från strömmar
  • Dimensionalitetsreduktion
  • Storskalig maskininlärning

Behörighet

Rekommenderade förkunskaper

Kännedom om begrepp och terminologi associerad med statistik, databassystem, och maskininlärning; en kurs om datastrukturer, algoritmer, och diskret matematik (som ID1020 Algoritmer och datastrukturer); en kurs i mjukvarusystem, software engineering, och programmeringsspråk; en kurs om att behandla, lagra and analysera massiva datamängder (som ID2221 Data-Intensive Computing).

Litteratur

Innehållet i kursen hämtas från dessa två kursböcker:

A. Rajaraman and J.  D. Ullman, Mining of massive datasets. Cambridge University Press, 2012 (alternative: J. Han, M. Kamber, J. Pei, Data Mining: Concepts and Techniques, 3-rd Ed., Morgan Kaufmann, 2012)

Examination

  • LAB1 - Programmeringsuppgifter, 3,0, betygsskala: P, F
  • TEN1 - Tentamen, 4,5, betygsskala: A, B, C, D, E, FX, F

Skriftlig tentamen. Laborativa uppgifter.

Ges av

EECS/Datavetenskap

Examinator

Vladimir Vlassov <vladv@kth.se>

Versionsinformation

Kursplan gäller från och med VT2019.
Examinationsinformation gäller från och med VT2019.