Markov kedjor, Markov beslut Process (MDP), dynamisk programmering och värde / policy iteration metoder, utformning av approximativa regulatorer för MDP, stokastisk linjär kvadratisk reglering, Multi-Armed Bandit problem.
EL2800 Stokastisk reglering och optimering 7,5 hp
Denna kurs är avvecklad.
Sista planerade examination: VT 2021
Avvecklingsbeslut:
Ingen information tillagdInnehåll och lärandemål
Kursinnehåll
Lärandemål
Kursen introducerar grundläggande teorier och metoder för analys och utformning av stokastiska reglersystem. Det ger en omfattande introduktion till stokastisk reglerteknik, med tillämpningar som tagits från en rad olika områden, bland annat marknadsföring, dynamisk resursallokering, och traditionell reglerteknik. Efter kursen ska du kunna
- Förstå de grundläggande principerna för sannolikhetsteori och stokastiska dynamiska system inklusive Markov kedjor.
- Noggrant formulera stokastiska reglerproblem som Markov Beslut Process (MDP) problem, klassificera motsvarande problem, och utvärdera deras spårbarhet.
- Ange principen om optimalitet i ändlig tid och oändlig tidshorisont MDP, och lösa MDP mha. dynamisk programmering.
- Härleda lösningar till MDP genom att använda värde och policy iterationer.
- Föreslå ungefärliga lösningar av MDP.
- Behandla MDP tillägg såsom begränsad MDP, Delvis Observer MDP, och distribuerade MDP.
- Formulera gränsvärdessatser som uttrycker förhållandet mellan MDP och deterministiska tidskontinuerliga styrproblem.
- Lösa linjärkvadratiska stokastiska reglerproblem.
- Lösa enklare optimala stopptidsproblem.
- Identifiera och formulera stokastiska Multi-Armed Bandit (MAB) problem; härleda regret lägre gränser för MAB problem.
- Lösa enklare online stokastiska optimeringsproblem.
- Föreslå algoritmer för kontradiktoriska MAB problem, och sekventiella beslut i upprepade spel.
Kurslitteratur och förberedelser
Särskild behörighet
För fristående kursstuderande: 120 hp samt dokumenterade kunskaper i engelska B eller motsvarande.
Rekommenderade förkunskaper
Utrustning
Kurslitteratur
Puterman, Markov Decision Processes: Discrete Stochastic Dynamic Programming, Wiley.
Bertsekas, Dynamic Programming and Optimal Control, vol. 1, Athena Scientific.
Bubeck and Cesa-Bianchi, Regret Analysis of Stochastic and Nonstochastic Multi-armed Bandit Problems, Now publisher, Foundations and trends in machine learning, 2012
Examination och slutförande
När kurs inte längre ges har student möjlighet att examineras under ytterligare två läsår.
Betygsskala
Examination
- HEM1 - Hemuppgift 1, 1,0 hp, betygsskala: P, F
- HEM2 - Hemuppgift 2, 1,0 hp, betygsskala: P, F
- LAB1 - Lab 1, 1,0 hp, betygsskala: P, F
- LAB2 - Lab 2, 1,0 hp, betygsskala: P, F
- TEN1 - Tentamen, 3,5 hp, betygsskala: A, B, C, D, E, FX, F
Examinator beslutar, baserat på rekommendation från KTH:s handläggare av stöd till studenter med funktionsnedsättning, om eventuell anpassad examination för studenter med dokumenterad, varaktig funktionsnedsättning.
Examinator får medge annan examinationsform vid omexamination av enstaka studenter.
Övriga krav för slutbetyg
· H1: Läxor (Homework), 1, grade scale: P/F
· LAB1: Datorlaborationer 1, 1, grade scale: P/F
· LAB2: Datorlaborationer 2, 1, grade scale: P/F
TEN1: Skriftlig tentamen, 4.5, grade scale: A, B, C, D, E, FX, F
Möjlighet till komplettering
Möjlighet till plussning
Examinator
Etiskt förhållningssätt
- Vid grupparbete har alla i gruppen ansvar för gruppens arbete.
- Vid examination ska varje student ärligt redovisa hjälp som erhållits och källor som använts.
- Vid muntlig examination ska varje student kunna redogöra för hela uppgiften och hela lösningen.