DD3342 Databrytning 6,0 hp

Knowledge Discovery and Data Mining

Den ökande användningen av IT och automatiska system som samlar in och lagrar information är en källa till stora mängder data. Denna information kan ofta användas för att få fram kunskap  om systemen som kan användas i affärs- och förbättringssyfte. I vetenskapliga aktiviteter kan man idag samla så mycket data från experiment att analys med konventionella statistiska metoder inte kan göras av resursskäl.

Metoder att systematiskt låta datorn upptäcka kunskap i rudimentär form är därför intressanta. Databrytning och kunskapsupptäckt är ett område där man studerar metoder att 'bryta' eller exploatera innehållet i stora databaser.

I denna kurs introducerar vi de vanligaste metoderna på området som utvecklats

inom discipliner som databasteknik, artificiell intelligens, statistik och

visualisering. Särskilt viktigt är att få fram sann och intressant i motsats till felaktig, slumpartad eller ointressant kunskap.

I kursen läggs ett statistikperspektiv på området.

  • Utbildningsnivå

    Forskarnivå
  • Huvudområde

  • Betygsskala

    P, F

Information för forskarstuderande om när kursen ges

Kontakta Stefan Arnborg, via e-post: stefana@csc.kth.se eller på telefon: 790 7194.

Lärandemål

Efter godkänt på kursen ska studenten kunna

  • förklara hur databrytning och kunskapsskapande utförs i praktiska sammanhang och vari dess teoretiska grunder består, 
  • beskriva och förklara flera metoder och verktyg som används i sammanhanget och visa förmåga att använda flera av dem,
  • följa utvecklingen inom området, 
  • bedöma tillämpbarheten av av metoderna i ett nytt problemområde,
  • tillämpa metoderna där så är lämpligt,
  • utveckla ny kunskap inom databrytning och kunskapsskapande.

Kursens huvudsakliga innehåll

Filosofiska grunder

Bayes regel och dess tolkning som inferensmetod

Cournots brygga och datakomprimering som inferensmetoder

Hypotesprövning och korrektioner för multipla tester

Teori för supportvektormaskinen, användning med denna av olinjära transformationer

och konform prediktion

Multivariat analys och användning av singulärvärdesdekomposition

Klassificering och klustring

Bayesianska nät och grafbaserade sannolikhetsmodeller

Prediktion och sekvensanalys

Lösning av Bayesiansk inferens med Markovkedja och Monte Carlo (MCMC)

Behörighet

Rekommenderade förkunskaper

Sannolikhetslära och statistik på elementär nivå. Något intresse av och förmåga att ställa upp och analysera matematiska statistiska modeler.

Litteratur

Kurskompendium och forskningsartiklar.

Examination

  • EXA1 - Examination, 6,0, betygsskala: P, F

Examinationen är individuell och kan bestå av inläsning och tillämpning av nya metoder eller tillämpningar i projektform. En lista över inläst material upprättas.

Ges av

EECS/Beräkningsvetenskap och beräkningsteknik

Kontaktperson

Jens Lagergren, e-post: jensl@kth.se, telefon: 55378570

Examinator

Jens Lagergren <jensl@kth.se>

Övrig information

Kursen kan läsas på egen hand, men föreläses också parallellt med DD2447, Statistiska metoder i datalogin. Examination är inte gemensam.

Versionsinformation

Kursplan gäller från och med VT2009.
Examinationsinformation gäller från och med VT2019.