Deep Learning Assisted Visual Odometry

Tid: Fr 2020-06-12 kl 10.00

Plats: Zoom webinar link: (English)

Respondent: Jiexiong Tang , Robotik, perception och lärande, RPL, Centrum för autonoma system, CAS

Opponent: Davison Andrew, Imperial College London

Handledare: Patric Jensfelt, Signaler, sensorer och system, Numerisk analys och datalogi, NADA, Robotik, perception och lärande, RPL

Abstract

Förmågan att självständigt utforska och interagera med en miljö har alltidvarit önskvärd hos robotar. Olika sensorbaserade SLAM-metoder har utvecklatsoch använts för detta ändamål under de senaste decennierna. Datorseendekan intuitivt används för 3D-förståelse men bygger på en enorm mängd informationsom kräver en hög nivå av intelligens för att tolka. Sensorer somLIDAR returnerar avståndet för varje mätpunkt direkt vilket gör rörelseuppskattningoch scenrekonstruktion mer rättframt än med en kamera. I den häravhandlingen är vi särskilt intresserade av kamerabaserad SLAM och merspecifikt den första delen av ett sådan system, dvs det som normalt kallasvisuell odometri (VO). Vi fokuserar på strategier baserade på djupinlärning.Nyligen har inlärningsbaserade metoder kommit att dominera de flesta avkameratillämpningarna och dyker gradvis upp i vårt dagliga liv. Till skillnadfrån klassiska metoder kan djupinlärningsbaserade metoder potentielltta itu med några av de inneboende problemen i kamerabaserade system ochförbättra prestandan för viktiga delar i VO. Till exempel uppskattningar avkorrespondenser, tät rekonstruktion och semantisk representation. I detta arbeteföreslår vi nya inlärningssystem för att stödja både direkta och indirektavisuella odometrimetoder. För de direkta metoder undersöker vi huvudsakligenfallet med endast en kamera. Bristen på baslinje, som i stereo, somger skalan i en scen har varit ett av de välkända problemen i detta fall. Viföreslår en metod som kopplar skattningen av djup och normaler, baseradpå endast en bild. För att adressera problemen med att skatta den absolutaskalan och drift i dessa skattningar, används det predikterade djupet somstartgissningar för avståndsoptimeringen. Dessutom använder vi geometriskinformation för att vägleda den täta rekonstruktionen på ett glest-till-tättsätt. För de indirekta metoderna föreslår vi nya nyckelpunktsbaserade metodersom märkbart förbättrar matchningsprestanda jämfört med klassiskametoder. Slutligen diskuterar vi potentiella sätt att göra inlärningen självkontrollerad.Detta åstadkoms genom att integrera skattningen av den inkrementellarörelsen i träningen. Vi undersöker också hur man kan använda enså kallad proxy-uppgift för att generera en implicit kontrollsignal och visaratt vi kan träna ett nyckelpunktgenererande nätverk på detta sätt.

Sammanfattningsvis presenterar denna avhandling flera fungerade exempelpå att hur djupinlärningstekniker kan hjälpa ett klassiskt visuellt odometrisystem.Resultaten är lovande och har utvärderats i omfattande ochutmanande scenarier, från dataset, på riktiga robotar så väl som handhållnakameror. Problemet vi undersöker befinner sig fortfarande i ett tidigt skedeforskningsmässigt, men intresserar nu också forskare från närliggande områden.

urn.kb.se/resolve?urn=urn:nbn:se:kth:diva-273749