Improving Spatial Understanding Through Learning and Optimization
Tid: Fr 2025-12-05 kl 13.00
Plats: F3 (Flodis), Lindstedtsvägen 26 & 28, Campus
Videolänk: https://kth-se.zoom.us/s/65134312330
Språk: Engelska
Respondent: Leonard Bruns , Robotik, perception och lärande, RPL
Opponent: Professor Stefan Leutenegger, ETH Zürich, Zürich, Switzerland
Handledare: Professor Patric Jensfelt, Robotik, perception och lärande, RPL
QC 20251106
Abstract
Rumslig förståelse omfattar olika förmågor, från pose estimering av objekt och kameror i en scen till formkomplettering av objekt utifrån partiella observationer. Dessa förmågor är vad som gör det möjligt för människor att intuitivt navigera och interagera med världen. Trots betydande framsteg inom storskalig inlärning saknar datorer fortfarande samma intuitiva rumsliga förståelse som människor har. Inom robotik innebär denna brist på förmågor en begränsad tillämpning av klassiska robotpipelines i verkliga miljöer, och inom förstärkt verklighet (augmented reality) begränsar den både den uppnåeliga verklighetsgraden och interaktionen mellan virtuellt innehåll och verkliga objekt.
Denna avhandling undersöker sätt att förbättra datorers rumsliga förståelse med hjälp av olika inlärnings- och optimeringsbaserade tekniker. Inlärningsbaserade metoder används för att lära in användbara förkunskaper om objekt och 3D-världen, medan optimeringsbaserade tekniker används för att hitta modeller av objekt och scener som stämmer väl överens med en uppsättning observationer. Inom detta ramverk undersöker och föreslår vi metoder för tre delproblem inom rumslig förståelse.
För det första föreslår vi ett modulärt ramverk för kategorisk pose- och formbestämning av objekt, vilket kombinerar en förtränad generativ formmodell med ett diskriminativt initialiseringsnätverk som skattar en initial pose och en latent form utifrån ett partiellt punktmoln av ett objekt. Genom att kombinera den generativa formmodellen med en differentierbar renderare utför vi vidare iterativ, gemensam optimering av pose och form från en eller flera vyer. Vår metod överträffar befintliga metoder, särskilt för objekt i fria orienteringar, samtidigt som den uppnår konkurrenskraftiga resultat för upprättstående objekt på en bordsyta.
För det andra undersöker vi användningen av neurala fält (neural fields) för tät, volymetrisk kartläggning. Specifikt föreslår vi att representera scenen med en uppsättning rumsligt begränsade, flyttbara neurala fält förankrade i en posegraf. Vi formulerar optimeringsproblemet för scenrepresentationen med flera fält som oberoende optimering av varje fält och visar att denna metod möjliggör integration av loop-stängning (loop closure) i realtid, undviker övergångsartefakter vid fältgränser och överträffar nuvarande neuralfältbaserade SLAM-system i större scener där betydande drift kan ackumuleras.
För det tredje undersöker vi storskalig förträning för visuell relokalisering med hjälp av regression av scenkoordinater. Vi delar upp den scenspecifika regressorn i en scenagnostisk regressor och en scenspecifik latent kartkod. Vi föreslår ett förträningsschema för den scenagnostiska koordinatregressorn för att bättre generalisera från kartläggningsbilder till sökbilder som innehåller olika synvinklar, ljusförändringar och objektplaceringar. Vi visar att vår metod överträffar befintliga metoder under sådana dynamiska uppdelningar mellan kartläggnings- och sökdata.