SF2930 Regressionsanalys 7,5 hp

Regression Analysis

Kursen ger en introduktion till moderna metoder för regressionsanalys med tillämpningar. Regressionsanalys är en statistisk metod för att undersöka och modellera förhållandet mellan en variabel av intresse,  responsvariabel och en uppsättning relaterade prediktionsvariabler. Regressionstekniker är av hög praktisk betydelse och dess omfattande användning är ett kännetecken för moderna statistiska tillämpningar. Framgångsrik tillämpning av regressionsanalys kräver lämplig bekantskap med underliggande teori och hantering av verkliga problem. För att uppnå detta är kursens övergripande mål således tvåfaldig: Att utrusta studenter med statistisk metodik för regressionsmodellering och utveckla avancerade praktiska färdigheter som är nödvändiga för att tillämpa regressionstekniker på reella dataproblem.

  • Utbildningsnivå

    Avancerad nivå
  • Huvudområde

    Matematik
  • Betygsskala

    A, B, C, D, E, FX, F

Kurstillfällen/kursomgångar

VT19 SAP för Study Abroad Programme (SAP)

  • Perioder

    VT19 P3 (7,5 hp)

  • Anmälningskod

    20066

  • Kursen startar

    2019-01-15

  • Kursen slutar

    2019-03-15

  • Undervisningsspråk

    Engelska

  • Studielokalisering

    KTH Campus

  • Undervisningstid

    Dagtid

  • Undervisningsform

    Normal

  • Antal platser

    Ingen begränsning

  • Schema

    Schema (nytt fönster)

  • Kursansvarig

    Tetyana Pavlenko <pavlenko@kth.se>

  • Lärare

    Tetyana Pavlenko <pavlenko@kth.se>

  • Målgrupp

    Study Abroad Programme

VT19 Doktorand för fristående studerande

  • Perioder

    VT19 P3 (7,5 hp)

  • Anmälningskod

    20105

  • Kursen startar

    2019-01-15

  • Kursen slutar

    2019-03-15

  • Undervisningsspråk

    Engelska

  • Studielokalisering

    KTH Campus

  • Undervisningstid

    Dagtid

  • Undervisningsform

    Normal

  • Antal platser *

    Max. 1

    *) Vid fler sökande än platser kommer urval att ske.

  • Kursansvarig

    Tetyana Pavlenko <pavlenko@kth.se>

  • Lärare

    Tetyana Pavlenko <pavlenko@kth.se>

  • Målgrupp

    Endast för doktorander på KTH

Lärandemål

Efter fullgjord kurs förväntas studenten kunna:

  • känna till statistiska egenskaperna hos punktskattningar som används inom linjär regression såväl som principer och antaganden bakom olika tillämpade skattnings tekniker
  • lista och kunna redogöra för antagandena bakom standard parametrisk och modell interferens i linjära regressionsmodellerna
  • bedöma passning för en regressionsmodell till data och veta hur man identifierar, diagnostiserar och åtgärder potentiella problem med en linjär regressionsmodell
  • utforma och genomföra strategin för att korrigera modellbrister och rapportera om den förväntade noggrannheten som kan uppnås med den föreslagna modellen
  • identifiera och utveckla regressionsmodelleringsstrategier som är lämpliga för stora och massiva datamängder samt för små datamängder
  • förklara hur den multipla linjära regressionen kan generaliseras för att hantera en respons variabel som är binär eller kategorisk
  • använd resampling algoritmer, i synnerhet bootstrap och cross-validering, för uppskattning av modellens prediktiva noggrannhet. Argumentera behoven och styrkor med resampling metoder i regressionsmodellering och validering
  • kritiskt utvärdera regressionsmodeller i en verklig tillämpning, presentera analysen och avrapportera förväntad precision i en skriftlig rapport
  • läsa nya forskningsuppsatser och redogöra för de frågor som behandlas av aktuell forskning

För att få det högsta betyget skall studenten därtill kunna

  • kombinera olika modeller för att få förbättrade resultat

Kursens huvudsakliga innehåll

Kursen börjar med modellanpassning, inferens och prediktion för enkla och multipla linjära regressionsmodeller. Särskild uppmärksamhet ägnas åt diagnostiska strategier som är viktiga komponenter för bra modellpassning. Ytterligare ämnen inkluderar transformer och viktningar för att korrigera modellbrister, multikollinearitet -problemet, variabelselektion och modellbyggnadsteknik. Senare i kursen presenteras några generella strategier för regressionsmodellering med särskild inriktning på de generaliserade linjära modellerna (GLM) med hjälp av exemplen med binära och andra kategoriska responsvariabler.

Eftersom insamling av högdimensionella data, med storleksordningen mycket större än vad som krävs för den klassiska regressionsteorin, är numera en regel snarare än undantag (t.ex. inom informationsteknologi, finans, genetik och astrofysik, för att bara nämna några), presenteras regression metoder som tillgodoser sådan data. Tyngdpunkten ligger på regulariseringsmetoder (Ridge, Lasso- och Elastic-Net regression), liksom metoder som använder härledda inmatningsriktningar (principalkomponentsregression och partiell minsta-kvadrat) som gör det möjligt att dämpa statistisk variation i högdimensionella skattnings- och prediktions problem.

Ett antal statistiska inlärningsmetoder med fokus på datorbaserade/datorintensiva algoritmer presenteras från regressionsperspektivet.

Datorbaserade projekt reella dataproblem utgör en viktig lärandeaktivitet.

Kursupplägg

Föreläsningar, presentationer, projektarbete.

Behörighet

Avklarade grundkurser i Sannolikhetsteori och statistik, Linjär algebra, En- och Flervariabel analys, Numeriska metoder.  

Rekommenderade förkunskaper

Grundkurs i Optimeringslära.

Litteratur

Se kursens websida.

Examination

  • OVN1 - Inlämningsuppgifter, 3,0, betygsskala: P, F
  • TENA - Skriftlig tentamen, 4,5, betygsskala: A, B, C, D, E, FX, F

Krav för slutbetyg

Godkända inlämningsuppgifter och tentamen.

Ges av

SCI/Matematik

Kontaktperson

Tetyana Pavlenko (pavlenko@kth.se)

Examinator

Tetyana Pavlenko <pavlenko@kth.se>

Övrig information

Ersätter SF2950

Versionsinformation

Kursplan gäller från och med VT2018.
Examinationsinformation gäller från och med VT2016.