ID2222 Datautvinning 7,5 hp

Data Mining

Visa kursinformation utifrån vald termin och kursomgång:

Kursomgång och genomförande

Ingen kursomgång är vald

Välj termin och kursomgång ovan för att få information från rätt kursplan och kursomgång.

Kursinformation

Innehåll och lärandemål

Kursinnehåll *

  • Introduktion till datautvinning
  • Frekventa Itemmängder
  • Att hitta liknande enheter
  • Klustring
  • Rekommendationssystem
  • Datautvinning från strömmar
  • Dimensionalitetsreduktion
  • Storskalig maskininlärning

Lärandemål *

Kursen behandlar fundamenta inom datautvinning, bearbetning av dataströmmar, och maskininlärningsalgoritmer för att analysera mycket stora datamängder. Vi använder plattformar för storskaliga datamängder, såsom MapReduce, Spark och Apache Flink, för att implementera parallella algoritmer, och även beräkningssystem för bearbetning av dataströmmar, såsom Storm och InfoSphere.

Efter denna kurs kommer studenterna att kunna utföra datautvinning på olika typer av data, till exempel data av högre dimension, grafdata och infinita/icke-avslutade data (dataströmmar); liksom att programmera och bygga tillämpningar inom datautvinning. De förväntas också att kunna lösa problem i praktiska tillämpningar, till exempel rekommendationssystem, associationsregler, länkanalys, och detektion av duplikat. Dessutom kommer de att behärska olika matematiska tekniker till exempel linjär algebra, optimering, och dynamisk programmering.

Kursupplägg

Ingen information tillagd

Kurslitteratur och förberedelser

Särskild behörighet *

Ingen information tillagd

Rekommenderade förkunskaper

Kännedom om begrepp och terminologi associerad med statistik, databassystem, och maskininlärning; en kurs om datastrukturer, algoritmer, och diskret matematik (som ID1020 Algoritmer och datastrukturer); en kurs i mjukvarusystem, software engineering, och programmeringsspråk; en kurs om att behandla, lagra and analysera massiva datamängder (som ID2221 Data-Intensive Computing).

Utrustning

Ingen information tillagd

Kurslitteratur

Innehållet i kursen hämtas från dessa två kursböcker:

A. Rajaraman and J.  D. Ullman, Mining of massive datasets. Cambridge University Press, 2012 (alternative: J. Han, M. Kamber, J. Pei, Data Mining: Concepts and Techniques, 3-rd Ed., Morgan Kaufmann, 2012)

Examination och slutförande

När kurs inte längre ges har student möjlighet att examineras under ytterligare två läsår.

Betygsskala *

A, B, C, D, E, FX, F

Examination *

  • LAB1 - Programmeringsuppgifter, 3,0 hp, betygsskala: P, F
  • TEN1 - Tentamen, 4,5 hp, betygsskala: A, B, C, D, E, FX, F

Examinator beslutar, baserat på rekommendation från KTH:s samordnare för funktionsnedsättning, om eventuell anpassad examination för studenter med dokumenterad, varaktig funktionsnedsättning.

Examinator får medge annan examinationsform vid omexamination av enstaka studenter.

Skriftlig tentamen. Laborativa uppgifter.

Möjlighet till komplettering

Ingen information tillagd

Möjlighet till plussning

Ingen information tillagd

Examinator

Vladimir Vlassov

Etiskt förhållningssätt *

  • Vid grupparbete har alla i gruppen ansvar för gruppens arbete.
  • Vid examination ska varje student ärligt redovisa hjälp som erhållits och källor som använts.
  • Vid muntlig examination ska varje student kunna redogöra för hela uppgiften och hela lösningen.

Ytterligare information

Kurswebb

Ytterligare information om kursen kan hittas på kurswebben via länken nedan. Information på kurswebben kommer framöver flyttas till denna sida.

Kurswebb ID2222

Ges av

EECS/Datavetenskap

Huvudområde *

Datalogi och datateknik

Utbildningsnivå *

Avancerad nivå

Påbyggnad

Ingen information tillagd

Övrig information

I denna kurs tillämpas EECS hederskodex, se: http://www.kth.se/eecs/utbildning/hederskodex.