Learning Sequential Decision Rules in Control Design: Regret-Optimal and Risk-Coherent Methods

Tid: On 2021-06-09 kl 16.00

Plats: zoom link for online defense (English)

Respondent: Matias I. Müller , Reglerteknik

Opponent: Professor Tom Oomen, Eindhoven University of Technology, Department of Mechanical Engineering

Handledare: Associate Professor Cristian R. Rojas, Reglerteknik; Professor Håkan Hjalmarsson, Reglerteknik

Abstract

Inom ingenjörsvetenskapen är man intresserad av problem inom optimal design under osäkerhet. Speciellt inom reglerteknik arbetar man med design av policyer/regler/algoritmer som sekventiellt fattar beslut givet otillförlitlig data. Denna avhandling behandlar två särskilda fall av optimalt sekventiellt beslutsfattande för två olika problem.

Det första problemet är känt som H_∞-normestimeringsproblemet (eller estimering av ℓ₂-förstärkning, för olinjära system), vilket är en grundläggande storhet inom reglerdesign via, t.ex. lågförstärkningssatsen. Målet här är att, givet ett okänt system, hitta den maximala ℓ₂-förstärkningen, vilket i en modellfri metod skulle innebära en sekventiell insignaldesign. H_∞-normestimeringsproblemet har formulerats som en kombination av flerarmad-bandit-problem för datagenerering och ett optimalt estimeringsproblem givet denna data. Problemet med att generera data är ett sekventiellt problem för insignalsdesign där beslutsfattaren vid varje omgÂng väljer en (eller många) frekvenser att sampla från det okända frekvenssvaret hos systemet som studeras. Vi visar att Thompson Sampling (TS), en klassisk banditalgoritm, är optimal inom den klass av algoritmer som bara väljer en frekvens per omgång. Dessutom introducerar vi Weighted Thompson Sampling (WTS), som är en TS-baserad algoritm som kan sampla många frekvenser vid varje omgång. I denna avhandling bevisar vi att WTS är en optimal banditpolicy inom klassen algoritmer som kan sampla många frekvenser samtidigt. Å andra sidan diskuteras också problemet med att uppskatta H_∞-normen för systemet med användning av data från banditalgoritmen. I synnerhet visar vi att det förväntade uppskattningsfelet för systemets förstärkning matchar asymptotiskt Cramér-Raos nedre gräns för en föreslagen uppskattare och för varje banditpolicy i en bred klass av algoritmer.

I den andra delen av avhandlingen behandlar vi problemet med riskkoherent optimal reglerdesign för störningsdämpning under osäkerhet, där optimaliteten studeras med avseende på H₂- och H_∞-norm. Vi tittar pÂ en parametrisk modell för systemet och dess störningspektrum, där modelleringsfelet mellan modellen och det verkliga systemet är osäkert. Denna osäkerhet har samlats i en täthetsfunktion över de olika realiseringarna av de parametrar som definierar modellen. Vi utnyttjar denna information för att designa en regulator som minimerar risken av att hamna i ett slutet system med dålig prestanda inom ett finansteoretiskt sammanhäng. När parametrarna i systemet inte är kända med tillräcklig noggrannhet för reglerdesign introducerar vi ett ramverk som gör det möjligt för oss att ta itu med det gemensamma stabiliseringsproblemet med sekventiella konvexa avslappningar, som var och en av dem leder till ett semidefinit program. Å andra sidan, när brusspektrumet är osäkert, föreslår vi ett systematiskt scenariotillvägagångssätt för utformning av H₂- och H_∞-optimala styrenheter i termer av linjära program med kvadratiska bivillkor respektive sekventiell semidefinit programmering. Simuleringsstudier visar att, ur ett riskteoretiskt perspektiv, utnyttjandet av informationen kodad i sannolikhetstäthetsfunktionen hos parametrarna som definierar modellerna bättre balanserar risken för att falla in i dålig prestanda av den återkopplade kretsen.

urn.kb.se/resolve?urn=urn:nbn:se:kth:diva-295224

Till kalendern

Utbildning

Forskning

Samverkan

Om KTH

Bibliotek

Learning Sequential Decision Rules in Control Design: Regret-Optimal and Risk-Coherent Methods

Abstract

Kontakt