
Förstärkande Inlärning (or Reinforcement Learning RL) tar upp problemet med att styra ett dynamiskt system för att maximera en uppfattning om belöning som ackumuleras över tiden. Vid varje tidpunkt (eller runt) väljer agenten en åtgärd, och som ett resultat utvecklas systemtillståndet. Agenten observerar det nya tillståndet och samlar in en belöning i samband med tillståndsövergången innan man bestämmer sig för nästa åtgärd. Till skillnad från klassiska kontrolluppgifter där systemdynamiken typiskt är helt förutsägbar, berör RL system vars dynamik måste läras eller med system som interagerar med en osäker miljö. När tiden utvecklas samlar agenten mer data och kan förbättra sin kunskap om systemdynamiken för att fatta bättre informerade beslut. RL har hittat många applikationer, allt från robotik, kontroll, onlinetjänster och spelspel och har fått ökad uppmärksamhet. Mycket nyligen har RL löst problem i situationer som närmar sig verklighetskomplexiteten, till exempel i att lära sig mänsklig nivåkontroll för att spela video och brädspel. Dessa situationer är dock ganska specifika, och vi är fortfarande långt ifrån system som kan lära sig i en mängd olika scenarier som människor gör.
Välj termin och kursomgång
Välj termin och kursomgång för att se information från rätt kursplan och kursomgång.
Innehåll och lärandemål
Kursinnehåll
Markov kedjor, Markov beslut Process (MDP), dynamisk programmering och värde / policy iteration metoder, utformning av approximativa regulatorer för MDP, stokastisk linjär kvadratisk reglering, Multi-Armed Bandit problem,RL algorithmer (Q-learning, Q-learning med funktion approximation, UCRL).
Lärandemål
Kursen ger en djupgående behandling av de moderna teoretiska verktygen som används för att utforma och analysera RL-algoritmer. Den innehåller en introduktion till RL och dess klassiska algoritmer som Q-learning och SARSA, men presenterar vidare motiveringen bakom utformningen av de senaste algoritmerna, såsom de slående optimala avvägningarna mellan prospektering och exploatering. Kursen täcker även algoritmer som används i senaste RL-framgångshistorier, t.ex djupa RL-algoritmer.
Efter kursen ska du kunna:
- Noggrant formulera stokastiska reglerproblem som Markov Beslut Process (MDP) problem, klassificera motsvarande problem, och utvärdera deras spårbarhet
- Ange principen om optimalitet i ändlig tid och oändlig tidshorisont MDP, och lösa MDP mha. dynamisk programmering
- Härleda lösningar till MDP genom att använda värde och policy iterationer
- Lösa reglerproblem för system vars dynamik måste läras Control stochastic systems with unknown dynamics using Q-learning or SARSA algorithms
- Förstå skillnaden mellan on-policy och off-policy RL problem
- Utveckla och implementera RL-algoritmer med funktion approximation (t.ex djupa RL-algoritmer - där Q-funktionen approximeras av utgången från ett neuralt nätverk)
- Lösa banditoptimeringsproblem
- Föreslå RL-algoritmer som slår på en bättre utforskning av exploateringsutnyttjande än Q-inlärningsbaserade algoritmer
Kursupplägg
Föreläsningar, övningar, datorlaborationer, läxor.
Kurslitteratur och förberedelser
Särskild behörighet
För fristående kursstuderande: 120 hp samt dokumenterade kunskaper i engelska B eller motsvarande.
Rekommenderade förkunskaper
Ingen information tillagd
Utrustning
Ingen information tillagd
Kurslitteratur
Puterman, Markov Decision Processes: Discrete Stochastic Dynamic Programming, Wiley.
Bertsekas, Dynamic Programming and Optimal Control, vol. 1, Athena Scientific.
Bubeck and Cesa-Bianchi, Regret Analysis of Stochastic and Nonstochastic Multi-armed Bandit Problems, Now publisher, Foundations and trends in machine learning, 2012
Sutton and Barto, Introduction to Reinforcement Learning, MIT Press, Cambridge, MA, USA, 1st edition, 1998
Szepesvari. Algorithms for Reinforcement Learning, Synthesis Lectures on Articial Intelligence and Machine Learning, Morgan & Claypool Publishers, 2010
Examination och slutförande
När kurs inte längre ges har student möjlighet att examineras under ytterligare två läsår.
Betygsskala
A, B, C, D, E, FX, F
Examination
- HEM1 - Hemuppgift 1, 1,0 hp, betygsskala: P, F
- HEM2 - Hemuppgift 2, 1,0 hp, betygsskala: P, F
- LAB1 - Lab 1, 1,0 hp, betygsskala: P, F
- LAB2 - Lab 2, 1,0 hp, betygsskala: P, F
- TEN1 - Tentamen, 3,5 hp, betygsskala: P, F
Examinator beslutar, baserat på rekommendation från KTH:s samordnare för funktionsnedsättning, om eventuell anpassad examination för studenter med dokumenterad, varaktig funktionsnedsättning.
Examinator får medge annan examinationsform vid omexamination av enstaka studenter.
HEM2 - Hemuppgift 2, 1,0, betygsskala: P, F
LAB1 - Lab 1, 1,5, betygsskala: P, F
LAB2 - Lab 2, 1,5, betygsskala: P, F
TEN1 - Tentamen, 3,5, betygsskala: A, B, C, D, E, FX, F
Övriga krav för slutbetyg
H1: Läxor (Homework), 1, grade scale: P/F
LAB1: Datorlaborationer 1, 1.5, grade scale: P/F
LAB2: Datorlaborationer 2, 1.5, grade scale: P/F
TEN1: Skriftlig tentamen, 3.5, grade scale: A, B, C, D, E, FX, F
Möjlighet till komplettering
Ingen information tillagd
Möjlighet till plussning
Ingen information tillagd
Examinator
Etiskt förhållningssätt
- Vid grupparbete har alla i gruppen ansvar för gruppens arbete.
- Vid examination ska varje student ärligt redovisa hjälp som erhållits och källor som använts.
- Vid muntlig examination ska varje student kunna redogöra för hela uppgiften och hela lösningen.
Ytterligare information
Kurswebb
Ytterligare information om kursen kan hittas på kurswebben via länken nedan. Information på kurswebben kommer framöver flyttas till denna sida.
Kurswebb EL2805Ges av
Huvudområde
Elektroteknik
Utbildningsnivå
Avancerad nivå
Påbyggnad
Ingen information tillagd
Kontaktperson
Alexandre Proutiere (alepro@kth.se)
Övrig information
https://www.kth.se/student/kurser/kurs/EL2805.
I denna kurs tillämpas EECS hederskodex, se:
http://www.kth.se/eecs/utbildning/hederskodex.