Towards Automatically Correcting Robot Behavior Using Non-Expert Feedback
Tid: Må 2022-12-05 kl 14.00
Plats: Kollegiesalen, Brinellvägen 6
Videolänk: https://kth-se.zoom.us/j/61095601099
Språk: Engelska
Ämnesområde: Datalogi
Respondent: Sanne van Waveren , Robotik, perception och lärande, RPL
Opponent: Professor Hadas Kress-Gazit, Cornell University, Ithaca, NY, USA
Handledare: Iolanda Leite, Robotik, perception och lärande, RPL
QC 20221109
Abstract
Robotar som agerar i miljöer med människor måste ha egenskapen att anpassa sig till nya situationer. De flesta robotar har hittills utgått från förprogrammerat beteende eller beteende från maskininlärning som tränats offline. På grund av det stora antalet möjliga situationer som en robot kan befinna sig i, så är det opraktiskt att definiera eller lära sig alla beteenden före utplacering, vilket leder till att roboten oundvikligen misslyckas vid någon tidpunkt. Resultatet av robotens oförmåga att hantera nya situationer är att den kan misslyckas med sitt uppdrag eller uppfylla sitt mål på det sättet som förväntas eller föredras. I den bästa av världar har roboten egenskapen att autonomt samla ytterligare beteenden och begränsningar som möjliggör korrekt beteende. Denna avhandlings ämne är korrigering av robotbeteende genom användning av återkoppling från personer som inte är skolade inom programmering eller robotik, d.v.s. lekmän.Vi utforskar hur lekmän kan hjälpa robotar att återhämta sig när deras plan eller policy misslyckas. Vidare måste robotar som arbetar med och runt människor kunna ta hänsyn till användarnas preferenser. Till exempel så kan användare föredra defensiva körstilar framför aggressiva körstilar hos autonoma bilar, eller en användare kan föredra att deras kaffekopp placeras på soffbordet till vänster om deras stol. I många vardagssituationer kommer robotar behöva ytterligare regler som inte kräver teknisk kunskap. Till exempel, en regel som fastslår att en kaffekopp inte ska placeras för nära kanten på ett bord, eller att roboten måste öppna dörren till ett skåp innan något kan placeras i det.Vi föreslår ett tillvägagångssätt som utnyttjar kunskap från lekmän för att förse en robot med indata för korrekta beteenden. Vi identifierar två huvudsakliga typer av indata: vad en robot borde göra (uppdrag och begränsningar), och hur en robot ska uppfylla sitt uppdrag (preferenser och beslutstagande). Denna avhandling utforskar detta tillvägagångssätt genom att använda sig av forskning inom människa-robot interaktion rörande misslyckande, crowdsourcing, och maskininlärning för storskalig datainsamling och generering, samt tekniker inom formella metoder för att garantera säkerhet och korrekthet. Arbetet som beskrivs i denna avhandling är ett steg mot en bättre förståelse av hur vi kan designa robotar som kan rätta sitt beteende automatiskt genom användning av återkoppling från lekmän samt utmaningarna inom icke-expert korrigering av robotbeteende.