ID3016 Data mining 7,5 hp

Data Mining

Kursen behandlar fundamenta inom data mining, data stream processing, och maskininlärningsalgoritmer för att analysera mycket stora datamängder. Vi använder plattformar för big data, såsom MapReduce, Spark och Apache Flink, för att implementera parallella algoritmer, och även beräkningssystem för data stream processing, såsom Storm och InfoSphere.

  • Utbildningsnivå

    Forskarnivå
  • Huvudområde

  • Betygsskala

    P, F

Kurstillfällen/kursomgångar

HT18 för programstuderande

  • Perioder

    HT18 P2 (7,5 hp)

  • Anmälningskod

    51449

  • Kursen startar

    2018-10-29

  • Kursen slutar

    2019-01-14

  • Undervisningsspråk

    Engelska

  • Studielokalisering

    Campus Kista

  • Undervisningstid

    Dagtid

  • Undervisningsform

    Normal

  • Antal platser

    Ingen begränsning

Information för forskarstuderande om när kursen ges

Kursen ges tilsammas med ID2222, period 2.

Lärandemål

Kursen behandlar fundamenta inom data mining, data stream processing, och maskininlärningsalgoritmer för att analysera mycket stora datamängder. Vi använder plattformar för big data, såsom MapReduce, Spark och Apache Flink, för att implementera parallella algoritmer, och även beräkningssystem för data stream processing, såsom Storm och InfoSphere.
Efter denna kurs kommer studenterna att kunna utföra data mining på olika typer av data, t.ex. data av högre dimension, grafdata, och infinita/icke-avslutade data (data streams); liksom att programmera och bygga tillämpningar inom data-mining. De förväntas också att kunna lösa problem i praktiska tillämpningar, t.ex. recommender-system, associationsregler, länkanalys, och detektion av duplikat. Dessutom kommer de att behärska olika matematiska tekniker t.ex. linjär algebra, optimering, och dynamisk programmering. Dessutom ska studenten kunna beskriva och tillämpa aktuella forsknings trender i data mining (inklusive metoder, algoritmer, språkstöd och verktyg).

Kursens huvudsakliga innehåll

Innehåll:
• Introduction till Data Mining
• Frekventa Itemmängder
• Att hitta  liknande enheter
• Klustring
• Recommender-system
• Mining Data Streams
• Dimensionalitetsreduktion
• Storskalig maskininlärning
• Översikt av aktuell forskning inom data mining och dess koppling till andra relevanta forskningsområden.

Behörighet

Rekommenderade förkunskaper:
Kännedom om begrepp och terminologi associerad med statistik, databassystem, och maskininlärning; en kurs om datastrukturer, algoritmer, och diskret matematik (som ID1020 Algoritmer och datastrukturer); en kurs i mjukvarusystem, software engineering, och programmeringsspråk; en kurs om att behandla, lagra and analysera massiva datamängder (som ID2221 Data-Intensive Computing).

Rekommenderade förkunskaper

Rekommenderade förkunskaper:
Kännedom om begrepp och terminologi associerad med statistik, databassystem, och maskininlärning; en kurs om datastrukturer, algoritmer, och diskret matematik (som ID1020 Algoritmer och datastrukturer); en kurs i mjukvarusystem, software engineering, och programmeringsspråk; en kurs om att behandla, lagra and analysera massiva datamängder (som ID2221 Data-Intensive Computing).

Litteratur

The contents of the course are derived from the following textbook:
A. Rajaraman and J.  D. Ullman, Mining of massive datasets.  Cambridge University Press, 2012 (alternative: J. Han, M. Kamber, J. Pei, Data Mining: Concepts and Techniques, 3-rd Ed., Morgan Kaufmann, 2012)

Examination

  • EXA1 - Examination, 7,5, betygsskala: P, F

Krav för slutbetyg

Godkänd skriftlig tentamina,  godkända inlämningsuppgifter och godkänd tillämpning av nuvarande forskning (till exempel: användning i en forskningsartikel, forskningsrapport, eller forskningsprojekt).

Ges av

EECS/Programvaruteknik och datorsystem

Examinator

Vladimir Vlassov <vladv@kth.se>

Versionsinformation

Kursplan gäller från och med HT2016.
Examinationsinformation gäller från och med VT2019.