EL2805 Förstärkande inlärning 7,5 hp

Reinforcement Learning

Förstärkande Inlärning (or Reinforcement Learning RL) tar upp problemet med att styra ett dynamiskt system för att maximera en uppfattning om belöning som ackumuleras över tiden. Vid varje tidpunkt (eller runt) väljer agenten en åtgärd, och som ett resultat utvecklas systemtillståndet. Agenten observerar det nya tillståndet och samlar in en belöning i samband med tillståndsövergången innan man bestämmer sig för nästa åtgärd. Till skillnad från klassiska kontrolluppgifter där systemdynamiken typiskt är helt förutsägbar, berör RL system vars dynamik måste läras eller med system som interagerar med en osäker miljö. När tiden utvecklas samlar agenten mer data och kan förbättra sin kunskap om systemdynamiken för att fatta bättre informerade beslut. RL har hittat många applikationer, allt från robotik, kontroll, onlinetjänster och spelspel och har fått ökad uppmärksamhet. Mycket nyligen har RL löst problem i situationer som närmar sig verklighetskomplexiteten, till exempel i att lära sig mänsklig nivåkontroll för att spela video och brädspel. Dessa situationer är dock ganska specifika, och vi är fortfarande långt ifrån system som kan lära sig i en mängd olika scenarier som människor gör.

  • Utbildningsnivå

    Avancerad nivå
  • Huvudområde

    Elektroteknik
  • Betygsskala

    A, B, C, D, E, FX, F

Kurstillfällen/kursomgångar

HT18 Doktorand för fristående studerande

  • Perioder

    HT18 P2 (7,5 hp)

  • Anmälningskod

    10165

  • Kursen startar

    2018-08-27

  • Kursen slutar

    2019-01-14

  • Undervisningsspråk

    Engelska

  • Studielokalisering

    KTH Campus

  • Undervisningstid

    Dagtid

  • Undervisningsform

    Normal

  • Antal platser *

    Max. 1

    *) Vid fler sökande än platser kommer urval att ske.

  • Kursansvarig

    Alexandre Proutiere <alepro@kth.se>

  • Lärare

    Alexandre Proutiere <alepro@kth.se>

  • Målgrupp

    För doktorander på KTH

Lärandemål

Kursen ger en djupgående behandling av de moderna teoretiska verktygen som används för att utforma och analysera RL-algoritmer. Den innehåller en introduktion till RL och dess klassiska algoritmer som Q-learning och SARSA, men presenterar vidare motiveringen bakom utformningen av de senaste algoritmerna, såsom de slående optimala avvägningarna mellan prospektering och exploatering. Kursen täcker även algoritmer som används i senaste RL-framgångshistorier, t.ex djupa RL-algoritmer.

Efter kursen ska du kunna:

  • Noggrant formulera stokastiska reglerproblem som Markov Beslut Process (MDP) problem, klassificera motsvarande problem, och utvärdera deras spårbarhet
  • Ange principen om optimalitet i ändlig tid och oändlig tidshorisont MDP, och lösa MDP mha. dynamisk programmering
  • Härleda lösningar till MDP genom att använda värde och policy iterationer
  • Lösa reglerproblem för system vars dynamik måste läras Control stochastic systems with unknown dynamics using Q-learning or SARSA algorithms
  • Förstå skillnaden mellan on-policy och off-policy RL problem
  • Utveckla och implementera RL-algoritmer med funktion approximation (t.ex djupa RL-algoritmer - där Q-funktionen approximeras av utgången från ett neuralt nätverk)
  • Lösa banditoptimeringsproblem
  •  Föreslå RL-algoritmer som slår på en bättre utforskning av exploateringsutnyttjande än Q-inlärningsbaserade algoritmer

Kursens huvudsakliga innehåll

Markov kedjor, Markov beslut Process (MDP), dynamisk programmering och värde / policy iteration metoder, utformning av approximativa regulatorer för MDP, stokastisk linjär kvadratisk reglering, Multi-Armed Bandit problem,RL algorithmer (Q-learning, Q-learning med funktion approximation, UCRL).

Kursupplägg

Föreläsningar, övningar, datorlaborationer, läxor.

Behörighet

För fristående kursstuderande: 120 hp samt dokumenterade kunskaper i engelska B eller motsvarande.

Litteratur

Puterman, Markov Decision Processes: Discrete Stochastic Dynamic Programming, Wiley.  

Bertsekas, Dynamic Programming and Optimal Control, vol. 1, Athena Scientific.

Bubeck and Cesa-Bianchi, Regret Analysis of Stochastic and Nonstochastic Multi-armed Bandit Problems, Now publisher, Foundations and trends in machine learning, 2012

Sutton and Barto, Introduction to Reinforcement Learning, MIT Press, Cambridge, MA, USA, 1st edition, 1998

Szepesvari. Algorithms for Reinforcement Learning, Synthesis Lectures on Articial Intelligence and Machine Learning, Morgan & Claypool Publishers, 2010

Examination

  • HEM1 - Hemuppgift 1, 1,0, betygsskala: P, F
  • HEM2 - Hemuppgift 2, 1,0, betygsskala: P, F
  • LAB1 - Lab 1, 1,0, betygsskala: P, F
  • LAB2 - Lab 2, 1,0, betygsskala: P, F
  • TEN1 - Tentamen, 3,5, betygsskala: P, F

HEM2 - Hemuppgift 2, 1,0, betygsskala: P, F

LAB1 - Lab 1, 1,5, betygsskala: P, F

LAB2 - Lab 2, 1,5, betygsskala: P, F

TEN1 - Tentamen, 3,5, betygsskala: A, B, C, D, E, FX, F

Krav för slutbetyg

H1: Läxor (Homework), 1, grade scale: P/F

LAB1: Datorlaborationer 1, 1.5, grade scale: P/F

LAB2: Datorlaborationer 2, 1.5, grade scale: P/F

TEN1: Skriftlig tentamen, 3.5, grade scale: A, B, C, D, E, FX, F

Ges av

EECS/Intelligenta system

Kontaktperson

Alexandre Proutiere (alepro@kth.se)

Examinator

Alexandre Proutiere <alepro@kth.se>

Övrig information

https://www.kth.se/student/kurser/kurs/EL2805

Versionsinformation

Kursplan gäller från och med VT2019.
Examinationsinformation gäller från och med VT2019.