Improving Sample-efficiency of Reinforcement Learning from Human Feedback
Tid: Ti 2025-04-01 kl 14.00
Plats: F3 (Flodis), Lindstedtsvägen 26
Videolänk: https://kth-se.zoom.us/j/62755931085
Språk: Engelska
Ämnesområde: Datalogi
Respondent: Simon Holk , Robotik, perception och lärande, RPL
Opponent: Research Associate Professor Brad Knox, The University of Texas at Austin, Austin, TX, USA
Handledare: Associate professor Iolanda Leite, Robotik, perception och lärande, RPL
QC 20250307
Abstract
Med den snabba utvecklingen av AI har teknologin lämnat den industriella och laboratoriebaserade miljön och hamnat i händerna på vanliga människor. När AI- och robotagenter placeras i vardagliga hushåll måste de kunna ta hänsyn till mänskliga behov. Med metoder som Reinforcement Learning from Human Feedback (RLHF) kan en agent lära sig önskvärt beteende genom att antingen lära sig en belöningsfunktion eller optimera en policy direkt baserat på mänsklig feedback. Till skillnad från visionsmodeller och stora språkmodeller (LLM), som gynnas av internet-skaliga datamängder, är RLHF begränsat av mängden feedback som ges, eftersom det kräver ytterligare mänsklig insats.I denna avhandling undersöker vi hur man kan minska mängden feedback som människor behöver ge för att minska deras börda vid estimering av en belöningsfunktion, utan att försämra uppskattningen. Vi undersöker den fundamentala avvägningen mellan informationsinnehållet och effektiviteten i feedback från ett preferensbaserat inlärningsperspektiv. I detta avseende introducerar vi flera metoder som kan kategoriseras i två grupper: implicita metoder, som förbättrar kvaliteten på feedback utan extra mänsklig ansträngning, och explicita metoder, som syftar till att drastiskt öka informationsinnehållet genom att använda ytterligare typer av feedback.För att implicit förbättra effektiviteten av preferensfeedback undersöker vi hur Active Learning (AL) kan användas för att förbättra mångfalden av urval genom att strategiskt välja från olika kluster i en inlärd representation med hjälp av en Variational Autoencoder (VAE). Vidare utnyttjar vi den unika relationen mellan preferenspar för att utföra datasyntes genom interpolation i VAE:s latenta utrymme.Även om de implicita metoderna har fördelen att de inte kräver extra ansträngning, lider de fortfarande av den begränsade mängd information som preferenser ensamma kan ge. En begränsning med preferenser på trajektorier är att det saknas diskontering, vilket innebär att om en trajektori föredras, antas det att hela trajektorin föredras, vilket kan leda till kausal förvirring. Därför introducerar vi en ny form av feedback, kallad highlights, där användaren kan markera på trajektorier vilka delar som var bra och vilka som var dåliga. Vidare utnyttjar vi LLM:er för att skapa en metod där människor kan förklara sina preferenser genom naturligt språk för att dra slutsatser om vilka delar som föredrogs.Sammanfattningsvis tar denna avhandling ett steg bort från antagandet om internet-skaliga datamängder och visar hur vi kan uppnå anpassning med mindre mänsklig feedback.