DD3342 Databrytning 6,0 hp
Knowledge Discovery and Data Mining
Den ökande användningen av IT och automatiska system som samlar in och lagrar information är en källa till stora mängder data. Denna information kan ofta användas för att få fram kunskap om systemen som kan användas i affärs- och förbättringssyfte. I vetenskapliga aktiviteter kan man idag samla så mycket data från experiment att analys med konventionella statistiska metoder inte kan göras av resursskäl.
Metoder att systematiskt låta datorn upptäcka kunskap i rudimentär form är därför intressanta. Databrytning och kunskapsupptäckt är ett område där man studerar metoder att 'bryta' eller exploatera innehållet i stora databaser.
I denna kurs introducerar vi de vanligaste metoderna på området som utvecklats
inom discipliner som databasteknik, artificiell intelligens, statistik och
visualisering. Särskilt viktigt är att få fram sann och intressant i motsats till felaktig, slumpartad eller ointressant kunskap.
I kursen läggs ett statistikperspektiv på området.
Utbildningsnivå
ForskarnivåKursnivå (A-D)
DHuvudområde
Betygsskala
P, F
Information för forskarstuderande om när kursen ges
Kontakta Stefan Arnborg, via e-post: stefana@csc.kth.se eller på telefon: 790 7194.
Lärandemål
Efter godkänt på kursen ska studenten kunna
- förklara hur databrytning och kunskapsskapande utförs i praktiska sammanhang och vari dess teoretiska grunder består,
- beskriva och förklara flera metoder och verktyg som används i sammanhanget och visa förmåga att använda flera av dem,
- följa utvecklingen inom området,
- bedöma tillämpbarheten av av metoderna i ett nytt problemområde,
- tillämpa metoderna där så är lämpligt,
- utveckla ny kunskap inom databrytning och kunskapsskapande.
Kursens huvudsakliga innehåll
Filosofiska grunder
Bayes regel och dess tolkning som inferensmetod
Cournots brygga och datakomprimering som inferensmetoder
Hypotesprövning och korrektioner för multipla tester
Teori för supportvektormaskinen, användning med denna av olinjära transformationer
och konform prediktion
Multivariat analys och användning av singulärvärdesdekomposition
Klassificering och klustring
Bayesianska nät och grafbaserade sannolikhetsmodeller
Prediktion och sekvensanalys
Lösning av Bayesiansk inferens med Markovkedja och Monte Carlo (MCMC)
Behörighet
Rekommenderade förkunskaper
Sannolikhetslära och statistik på elementär nivå. Något intresse av och förmåga att ställa upp och analysera matematiska statistiska modeler.
Litteratur
Kurskompendium och forskningsartiklar.
Examination
- TEN1 - Tentamen, 6,0 hp, betygsskala: P, F
Examinationen är individuell och kan bestå av inläsning och tillämpning av nya metoder eller tillämpningar i projektform. En lista över inläst material upprättas.
Ges av
CSC/Datalogi
Kontaktperson
Jens Lagergren, e-post: jensl@kth.se, telefon: 55378570
Examinator
Jens Lagergren <jensl@kth.se>
Övrig information
Kursen kan läsas på egen hand, men föreläses också parallellt med DD2447, Statistiska metoder i datalogin. Examination är inte gemensam.
Versionsinformation
Kursplan giltig från och med
VT09.
Examinationsinformation giltig från och med
HT07.
