Coordinated Control of FACTS Setpoints Using Reinforcement Learning
Tid: On 2025-10-08 kl 13.00
Plats: F3 (Flodis), Lindstedtsvägen 26 & 28
Videolänk: https://kth-se.zoom.us/j/65901664759
Språk: Engelska
Ämnesområde: Datalogi
Respondent: Magnus Tarle , Robotik, perception och lärande, RPL, Hitachi Energy Sweden AB, 721 82 Västerås, Sweden
Opponent: Professor Spyros Chatzivasileiadis, Technical University of Denmark (DTU), Copenhagen, Denmark
Handledare: Professor Mårten Björkman, Robotik, perception och lärande, RPL; Professor Lars Nordström, Elkraftteknik
QC 20250908
Abstract
Med den ökande elektrifieringen och integrationen av förnybar energi står elnätsoperatörer inför stora reglerlutmaningar. Dessa utmaningar inkluderar spänningsstabilitet, snabbare dynamik och hantering av överlaster. Potentiella lösningar innefattar mer avancerade styrsystem och noggranna mätningar. En lovande strategi för att delvis hantera dessa problem är koordinerad styrning av referensvärden för Flexible AC Transmission Systems (FACTS), vilket kan förbättra spännings- och effektflödesregleringen avsevärt. I praktiken används dock ofta konstanta referensvärden, till följd av optimeringssvårigheter kopplade till exempelvis osäkerhet och modellfel. Ett alternativ med stor potential är datadrivna metoder baserade på exempelvis förstärkande inlärning (reinforcement learning, RL). Mot bakgrund av dessa utmaningar, tillgången till högkvalitativ data samt framstegen inom RL, undersöker denna avhandling en RL-baserad koordinerad styrning av referensvärden för FACTS. Med fokus på säkerhet undersöks fyra problemställningar på IEEE:s 14-nods- och 57-nodssystem, med hänsyn till begränsad förträning, modellfel, få mätvärden samt användning av dataset för förträning. För det första föreslår vi WMAP, en modellbaserad RL-algoritm som lär sig och använder en komprimerad dynamikmodell för att optimera spännings- och strömreferenser. WMAP innehåller en mekanism för att mildra sämre prestanda vid data utanför träningsförhållandena. WMAP visas överträffa modellfri RL och en expertpolicy som uppdateras sällan. För det andra, när modellfel förekommer i kraftsystemet, visar vi att säker RL uppnår bättre måluppfyllelse än klassisk modellbaserad optimering. För det tredje visar vi att RL kan prestera bättre än fasta referensvärden med hjälp av ett fåtal mätvärden, förutsatt att den har tillgång till en komplett, om än enkel, constraint-signal. Slutligen visar vi att RL som använder dataset för offline-förträning kan överträffa både den ursprungliga policy som genererat datasetet och en RL-agent tränad från grunden. Sammantaget bidrar dessa fyra arbeten till framsteg inom området mot ett mer anpassningsbart och hållbart elsystem.