EL2805 Förstärkande inlärning 7,5 hp

Förstärkande Inlärning (or Reinforcement Learning RL) tar upp problemet med att styra ett dynamiskt system för att maximera en uppfattning om belöning som ackumuleras över tiden. Vid varje tidpunkt (eller runt) väljer agenten en åtgärd, och som ett resultat utvecklas systemtillståndet. Agenten observerar det nya tillståndet och samlar in en belöning i samband med tillståndsövergången innan man bestämmer sig för nästa åtgärd. Till skillnad från klassiska kontrolluppgifter där systemdynamiken typiskt är helt förutsägbar, berör RL system vars dynamik måste läras eller med system som interagerar med en osäker miljö. När tiden utvecklas samlar agenten mer data och kan förbättra sin kunskap om systemdynamiken för att fatta bättre informerade beslut. RL har hittat många applikationer, allt från robotik, kontroll, onlinetjänster och spelspel och har fått ökad uppmärksamhet. Mycket nyligen har RL löst problem i situationer som närmar sig verklighetskomplexiteten, till exempel i att lära sig mänsklig nivåkontroll för att spela video och brädspel. Dessa situationer är dock ganska specifika, och vi är fortfarande långt ifrån system som kan lära sig i en mängd olika scenarier som människor gör.

Information per kursomgång

Termin

HT 2025

Information för HT 2025 Start 2025-10-27 programstuderande

Studielokalisering: KTH Campus
Varaktighet: 2025-10-27 - 2026-01-12
Perioder: HT 2025: P2 (7.5 hp)
Studietakt: 50%
Anmälningskod: 51185
Undervisningsform: Normal Dagtid
Undervisningsspråk: Engelska
Kurs-PM: Kurs-PM är inte publicerat
Antal platser: Ingen platsbegränsning
Målgrupp: Öppen för alla program under förutsättning att kursen kan ingå i programmet.
Planerade schemamoduler: [object Object]
Schema: Länk till Schema
Del av program: Ingen information tillagd

Kontakt

Examinator

Ingen information tillagd

Kursansvarig

Ingen information tillagd

Lärare

Ingen information tillagd

Kursplan som PDF

Notera: all information från kursplanen visas i tillgängligt format på denna sida.

Kursplan EL2805 (HT 2023–)

Rubriker med innehåll från kursplan EL2805 (HT 2023–) är markerade med en asterisk ( )

Innehåll och lärandemål

Kursinnehåll

Kursen ger en djupgående behandling av de moderna teoretiska verktygen som används för att utforma och analysera förstärkande inlärningsalgoritmer (RL-algoritmer). Den innehåller en introduktion till RL och dess klassiska algoritmer som Q-learning och SARSA, och presenterar vidare motiveringen bakom utformningen av de senaste algoritmerna, såsom de slående optimala avvägningarna mellan prospektering och exploatering. Kursen täcker även algoritmer som används i de senaste framgångshistorierna för RL, t.ex. djupa RL-algoritmer.

Markovkedjor, Markovbeslutsprocessproblem (MDP), dynamisk programmering, värde- och policyiterationer, utformning av approximativa regulatorer för MDP, stokastisk linjär kvadratisk reglering, Multi-Armed Bandit-problemet, RL-algoritmer (Q-learning, Q-learning med funktionsapproximation).

Lärandemål

Efter godkänd kurs ska studenten kunna

noggrant formulera stokastiska reglerproblem som Markovbeslutsprocessproblem (MDP), klassificera motsvarande problem och utvärdera deras spårbarhet
ange principen om optimalitet i ändlig tid och oändlig tidshorisont för MDP, och lösa MDP med hjälp av dynamisk programmering
härleda lösningar till MDP genom att använda värde- och policyiterationer
lösa reglerproblem för system vars dynamik måste läras med Q-learning och SARSA-algoritmer
förklara skillnaden mellan on-policy- och off-policy-algoritmer
utveckla och implementera RL-algoritmer med funktionsapproximation (till exempel djupa RL-algoritmer där Q-funktionen approximeras av utgången från ett neuralt nätverk)
lösa banditoptimeringsproblem.

Kurslitteratur och förberedelser

Särskild behörighet

För fristående kursstuderande: 120 hp samt dokumenterade kunskaper i engelska B eller motsvarande.

Kurslitteratur

Du hittar information om kurslitteratur antingen i kursomgångens kurs-PM eller i kursomgångens kursrum i Canvas.

Examination och slutförande

Betygsskala

A, B, C, D, E, FX, F

Examination

HEM1 - Hemuppgift 1, 1,0 hp, betygsskala: P, F
HEM2 - Hemuppgift 2, 1,0 hp, betygsskala: P, F
LAB2 - Lab 2, 1,0 hp, betygsskala: P, F
LAB1 - Lab 1, 1,0 hp, betygsskala: P, F
TENA - Skriftlig tentamen, 3,5 hp, betygsskala: A, B, C, D, E, FX, F

Examinator beslutar, baserat på rekommendation från KTH:s handläggare av stöd till studenter med funktionsnedsättning, om eventuell anpassad examination för studenter med dokumenterad, varaktig funktionsnedsättning.

Examinator får medge annan examinationsform vid omexamination av enstaka studenter.

När kurs inte längre ges har student möjlighet att examineras under ytterligare två läsår.

Examinator

Alexandre Proutiere

Etiskt förhållningssätt

Vid grupparbete har alla i gruppen ansvar för gruppens arbete.
Vid examination ska varje student ärligt redovisa hjälp som erhållits och källor som använts.
Vid muntlig examination ska varje student kunna redogöra för hela uppgiften och hela lösningen.

Ytterligare information

Kursrum i Canvas

Registrerade studenter hittar information för genomförande av kursen i kursrummet i Canvas. En länk till kursrummet finns under fliken Studier i Personliga menyn vid kursstart.

Ges av

EECS/Intelligenta system

Huvudområde

Elektroteknik

Utbildningsnivå

Avancerad nivå

Övrig information

https://www.kth.se/student/kurser/kurs/EL2805.

I denna kurs tillämpas EECS hederskodex, se:
http://www.kth.se/eecs/utbildning/hederskodex.

Studier

Stöd och vägledning

IT och digitala tjänster

Kontakt

EL2805 Förstärkande inlärning 7,5 hp

Information per kursomgång

Information för HT 2025 Start 2025-10-27 programstuderande

Kontakt

Kursplan som PDF

Innehåll och lärandemål

Kursinnehåll

Lärandemål

Kurslitteratur och förberedelser

Särskild behörighet

Kurslitteratur

Examination och slutförande

Betygsskala

Examination

Examinator

Etiskt förhållningssätt

Ytterligare information

Kursrum i Canvas

Ges av

Huvudområde

Utbildningsnivå

Övrig information