EL2805 Förstärkande inlärning 7,5 hp

Reinforcement Learning

Förstärkande Inlärning (or Reinforcement Learning RL) tar upp problemet med att styra ett dynamiskt system för att maximera en uppfattning om belöning som ackumuleras över tiden. Vid varje tidpunkt (eller runt) väljer agenten en åtgärd, och som ett resultat utvecklas systemtillståndet. Agenten observerar det nya tillståndet och samlar in en belöning i samband med tillståndsövergången innan man bestämmer sig för nästa åtgärd. Till skillnad från klassiska kontrolluppgifter där systemdynamiken typiskt är helt förutsägbar, berör RL system vars dynamik måste läras eller med system som interagerar med en osäker miljö. När tiden utvecklas samlar agenten mer data och kan förbättra sin kunskap om systemdynamiken för att fatta bättre informerade beslut. RL har hittat många applikationer, allt från robotik, kontroll, onlinetjänster och spelspel och har fått ökad uppmärksamhet. Mycket nyligen har RL löst problem i situationer som närmar sig verklighetskomplexiteten, till exempel i att lära sig mänsklig nivåkontroll för att spela video och brädspel. Dessa situationer är dock ganska specifika, och vi är fortfarande långt ifrån system som kan lära sig i en mängd olika scenarier som människor gör.

Visa kursinformation utifrån vald termin och kursomgång:

Kursomgång och genomförande

Ingen kursomgång är vald

Välj termin och kursomgång ovan för att få information från rätt kursplan och kursomgång.

Kursinformation

Innehåll och lärandemål

Kursinnehåll *

Markov kedjor, Markov beslut Process (MDP), dynamisk programmering och värde / policy iteration metoder, utformning av approximativa regulatorer för MDP, stokastisk linjär kvadratisk reglering, Multi-Armed Bandit problem,RL algorithmer (Q-learning, Q-learning med funktion approximation, UCRL).

Lärandemål *

Kursen ger en djupgående behandling av de moderna teoretiska verktygen som används för att utforma och analysera RL-algoritmer. Den innehåller en introduktion till RL och dess klassiska algoritmer som Q-learning och SARSA, men presenterar vidare motiveringen bakom utformningen av de senaste algoritmerna, såsom de slående optimala avvägningarna mellan prospektering och exploatering. Kursen täcker även algoritmer som används i senaste RL-framgångshistorier, t.ex djupa RL-algoritmer.

Efter kursen ska du kunna:

  • Noggrant formulera stokastiska reglerproblem som Markov Beslut Process (MDP) problem, klassificera motsvarande problem, och utvärdera deras spårbarhet
  • Ange principen om optimalitet i ändlig tid och oändlig tidshorisont MDP, och lösa MDP mha. dynamisk programmering
  • Härleda lösningar till MDP genom att använda värde och policy iterationer
  • Lösa reglerproblem för system vars dynamik måste läras Control stochastic systems with unknown dynamics using Q-learning or SARSA algorithms
  • Förstå skillnaden mellan on-policy och off-policy RL problem
  • Utveckla och implementera RL-algoritmer med funktion approximation (t.ex djupa RL-algoritmer - där Q-funktionen approximeras av utgången från ett neuralt nätverk)
  • Lösa banditoptimeringsproblem
  •  Föreslå RL-algoritmer som slår på en bättre utforskning av exploateringsutnyttjande än Q-inlärningsbaserade algoritmer

Kursupplägg

Föreläsningar, övningar, datorlaborationer, läxor.

Kurslitteratur och förberedelser

Särskild behörighet *

För fristående kursstuderande: 120 hp samt dokumenterade kunskaper i engelska B eller motsvarande.

Rekommenderade förkunskaper

Ingen information tillagd

Utrustning

Ingen information tillagd

Kurslitteratur

Puterman, Markov Decision Processes: Discrete Stochastic Dynamic Programming, Wiley.  

Bertsekas, Dynamic Programming and Optimal Control, vol. 1, Athena Scientific.

Bubeck and Cesa-Bianchi, Regret Analysis of Stochastic and Nonstochastic Multi-armed Bandit Problems, Now publisher, Foundations and trends in machine learning, 2012

Sutton and Barto, Introduction to Reinforcement Learning, MIT Press, Cambridge, MA, USA, 1st edition, 1998

Szepesvari. Algorithms for Reinforcement Learning, Synthesis Lectures on Articial Intelligence and Machine Learning, Morgan & Claypool Publishers, 2010

Examination och slutförande

När kurs inte längre ges har student möjlighet att examineras under ytterligare två läsår.

Betygsskala *

A, B, C, D, E, FX, F

Examination *

  • HEM1 - Hemuppgift 1, 1,0 hp, betygsskala: P, F
  • HEM2 - Hemuppgift 2, 1,0 hp, betygsskala: P, F
  • LAB1 - Lab 1, 1,0 hp, betygsskala: P, F
  • LAB2 - Lab 2, 1,0 hp, betygsskala: P, F
  • TEN1 - Tentamen, 3,5 hp, betygsskala: P, F

Examinator beslutar, baserat på rekommendation från KTH:s samordnare för funktionsnedsättning, om eventuell anpassad examination för studenter med dokumenterad, varaktig funktionsnedsättning.

Examinator får medge annan examinationsform vid omexamination av enstaka studenter.

HEM2 - Hemuppgift 2, 1,0, betygsskala: P, F

LAB1 - Lab 1, 1,5, betygsskala: P, F

LAB2 - Lab 2, 1,5, betygsskala: P, F

TEN1 - Tentamen, 3,5, betygsskala: A, B, C, D, E, FX, F

Övriga krav för slutbetyg *

H1: Läxor (Homework), 1, grade scale: P/F

LAB1: Datorlaborationer 1, 1.5, grade scale: P/F

LAB2: Datorlaborationer 2, 1.5, grade scale: P/F

TEN1: Skriftlig tentamen, 3.5, grade scale: A, B, C, D, E, FX, F

Möjlighet till komplettering

Ingen information tillagd

Möjlighet till plussning

Ingen information tillagd

Examinator

Alexandre Proutiere

Etiskt förhållningssätt *

  • Vid grupparbete har alla i gruppen ansvar för gruppens arbete.
  • Vid examination ska varje student ärligt redovisa hjälp som erhållits och källor som använts.
  • Vid muntlig examination ska varje student kunna redogöra för hela uppgiften och hela lösningen.

Ytterligare information

Kurswebb

Ytterligare information om kursen kan hittas på kurswebben via länken nedan. Information på kurswebben kommer framöver flyttas till denna sida.

Kurswebb EL2805

Ges av

EECS/Intelligenta system

Huvudområde *

Elektroteknik

Utbildningsnivå *

Avancerad nivå

Påbyggnad

Ingen information tillagd

Kontaktperson

Alexandre Proutiere (alepro@kth.se)

Övrig information

https://www.kth.se/student/kurser/kurs/EL2805.

I denna kurs tillämpas EECS hederskodex, se:
http://www.kth.se/eecs/utbildning/hederskodex.