Till innehåll på sidan
Till KTH:s startsida

Approximate Methods of Optimal Control via Dynamic Programming Models

Tid: Ti 2023-03-21 kl 15.00

Plats: F3, Lindstedtsvägen 26 & 28, Stockholm

Videolänk: https://kth-se.zoom.us/j/63507706096

Språk: Engelska

Ämnesområde: Elektro- och systemteknik

Respondent: Yuchao Li , Reglerteknik

Opponent: Professor Moritz Diehl, Department of Microsystems Engineering and Department of Mathematics, University of Freiburg

Handledare: Professor Jonas Mårtensson, Integrated Transport Research Lab, ITRL, Reglerteknik; Professor Karl H. Johansson, Reglerteknik

Exportera till kalender

QC 20230227

Abstract

Optimal reglerteori har en lång historia med mängder av olika tillämpningar. Motiverade av att få insikter genom att förena olika problem och metoder, utnyttja den rika förmågan att generera data samt utföra online-simulering, studerar denna avhandling tidsdiskreta optimala reglerproblem med oändlig tidshorisont och introducerar några ungefärliga lösningsmetoder via abstrakta dynamiska programmeringmodeller (DP-modeller). De föreslagna metoderna innebär att värderummet approximeras då data och simulatorer används, tillämpas på en bred klass av problem samt uppnår en god balans mellan tillfredsställande prestanda och beräkningskostnader.

Vi börjar med att studera deterministiska problem med icke-negativa stegkostnader. Vi härleder tillräckliga villkor som garanterar lokal styrbarhet för icke-linjära regleringssystem med signalbegränsingar och tillämpar resultaten för att fastställa konvergens av de klassiska algoritmerna, inklusive värdeiteration, policyiteration (PI) och optimistisk PI. Dessa resultat ger oss en utgångspunkt för att konstruera suboptimala metoder. Därefter föreslår vi algoritmer som utnyttjar systemtrajektorier eller närvaron av parallella beräkningsenheter för att uppskatta de optimala kostnaderna. Dessa algoritmer kan ses som varianter av modellprediktiv reglering (MPC) eller rollout och kan tillämpas på deterministiska problem med godtyckliga tillstånds- och styrrum, samt godtycklig dynamik. Denna insikt tillåter oss att utvidga våra metoder till problem med begräsningar på trajektoria och multiagentstruktur. Via den abstrakta DP-modellens synpunkt härleder vi även prestandabegränsningar för MPC tillämpat på både icke-begränsade och begränsade linjära kvadratiska problem samt deras icke-linjära motsvarigheter. Dessa insikter föreslår nya konstruktioner av MPC som leder till fler möjliga appliceringsområden för metoden med nästan ingen förlust av prestanda mätt i kostnader som samlas upp över oändliga tidshorisonter.

Dessutom härleder vi algoritmer för att lösa problem med en fix diskonteringsfaktor på framtida kostnader. Vi tillämpar abstrakta DP-modeller för att analysera $\lambda$-PI algoritmer med slumpmässighet för problem med oändliga policyer. Vi visar att en sammandragningsegenskap som orsakas av diskonteringsfaktorn är tillräcklig för att algoritmen ska vara välformulerad. Dessutom identifierar vi villkoren som gör att algoritmen konvergerar med sannolikhet ett. Med ledning av analysen exemplifierar vi en datadriven ungefärlig implementering av algoritmen för att uppskatta de optimala kostnaderna för begränsade linjära och icke-linjära regleringsproblem. De uppskattade optimala kostnaderna används i ett relaterat suboptimal metod. Därefter behandlar vi diskonteringsproblem med diskreta tillstånds- och styrrum och en multiagentstruktur. När vi tillämpar rollout för att hantera problemet är den största utmaningen att utföra minimering över ett stort styrrum. Vi föreslår en rolloutvariant som innebär att ordningen på agenterna ändras för att hantera utmaningen. Uppskattningen av kostnaderna för baspolicyerna sker genom användning av online-simulering. Den föreslagna metoden tillämpas för att hantera ruttplanering för multiagentsystem i ett lager, där robotarna genom online-omplanering kan anpassa sig till en föränderlig miljö samtidigt som de undviker kollision med varandra.

urn.kb.se/resolve?urn=urn:nbn:se:kth:diva-324294