Datautvinning

Logga in till din kurswebb

Du är inte inloggad på KTH så innehållet är inte anpassat efter dina val.

Kurswebben har varit stängt för redigering sedan första juni 2025 och kommer stängas ned helt första oktober 2026. Utifrån hur kurswebben har använts finns det några olika alternativ för ersättare:

Sidan "Inför kursval" i Om kursen
Kurs-PM (i Om kursen)
Publikt utrymme i Canvas

Är du intresserad av mer information om detta, kontakta e-learning@kth.se.

Welcome!

This is the website for the course ID2222 Data Mining (Datautvinning).

The course studies fundamentals of data mining, data stream processing, and machine learning algorithms for analysing very large amounts of data. We will use big data processing platforms, such as MapReduce, Spark and Apache Flink, for implementing parallel algorithms, as well as computation systems for data stream processing, such as Storm and InfoSphere.

After this course, students will be able to mine different types of data, e.g., high-dimensional data, graph data, and infinite/never-ending data (data streams); as well as to program and build data-mining applications. They are also expected to know how to solve problems in real-world applications, e.g., recommender systems, association rules, link analysis, and duplicate detection. Moreover, they will master various mathematical techniques, e.g., linear algebra, optimisation, and dynamic programming.

Course main content

Introduction to Data Mining
Frequent Itemsets
Finding Similar Items
Clustering
Recommendation Systems
Mining Data Streams
Dimensionality Reduction
(tentative) Large-Scale Machine Learning

Välkommen!

Kursen behandlar fundamenta inom datautvinning, bearbetning av dataströmmar, och maskininlärningsalgoritmer för att analysera mycket stora datamängder. Vi använder plattformar för storskaliga datamängder, såsom MapReduce, Spark och Apache Flink, för att implementera parallella algoritmer, och även beräkningssystem för bearbetning av dataströmmar, såsom Storm och InfoSphere.

Efter denna kurs kommer studenterna att kunna utföra datautvinning på olika typer av data, till exempel data av högre dimension, grafdata och infinita/icke-avslutade data (dataströmmar); liksom att programmera och bygga tillämpningar inom datautvinning. De förväntas också att kunna lösa problem i praktiska tillämpningar, till exempel rekommendationssystem, associationsregler, länkanalys, och detektion av duplikat. Dessutom kommer de att behärska olika matematiska tekniker till exempel linjär algebra, optimering, och dynamisk programmering.

Kursens huvudsakliga innehåll

Introduktion till datautvinning
Frekventa Itemmängder
Att hitta liknande enheter
Klustring
Rekommendationssystem
Datautvinning från strömmar
Dimensionalitetsreduktion
(trevande) Storskalig maskininlärning

Anmäl missbruk