Till innehåll på sidan
Till KTH:s startsida

Multi-Sensor Remote Sensing for Urban Mapping and Change Detection Using Deep Learning

Tid: Fr 2024-12-13 kl 09.00

Plats: D37, Lindstedtsvägen 5, Stockholm

Videolänk: https://kth-se.zoom.us/j/65114181594

Språk: Engelska

Ämnesområde: Geodesi och geoinformatik, Geoinformatik

Respondent: Sebastian Hafner , Geoinformatik

Opponent: Professor Paolo Gamba, University of Pavia, Italy

Handledare: Professor Yifang Ban, Geoinformatik

Exportera till kalender

QC241126

Abstract

Urbaniseringen drivs på av den snabba befolkningstillväxten och går framåt i en aldrig tidigare skådad takt på många platser runt om i världen. Jordobservation (EO) har blivit ett viktigt verktyg för att övervaka urbaniseringen på global nivå. I synnerhet moderna satellituppdrag ger nya möjligheter till stadskartläggning och upptäckt av förändringar (CD) genom högupplösta bilder och frekventa återbesök. Dessa uppdrag har möjliggjort multimodala tillvägagångssätt genom att integrera data från olika satelliter, t.ex. Sentinel-1 Synthetic Aperture Radar (SAR) och Sentinel-2 MultiSpectral Instrument (MSI). Samtidigt har analysen av EO-data utvecklats från traditionella maskininlärningsmetoder till modeller för djupinlärning (DL), i synnerhet Convolutional Neural Networks (ConvNets). Nuvarande DL-metoder för stadskartläggning och CD står dock inför flera utmaningar, till exempel beroende av stora märkta dataset för övervakad träning, den begränsade överförbarheten av DL-modeller över geografiska regioner, effektiv integration av multimodala EO-data och användning av satellitbildstidsserier (SITS) för CD. För att ta itu med dessa utmaningar syftar denna avhandling till att utveckla nya djupinlärningsmetoder för robust stadskartläggning och förändringsdetektering med hjälp av EO-data från flera källor.

Först introduceras en SSL-metod (semi-supervised learning) som utnyttjar multimodala Sentinel-1 SAR- och Sentinel-2 MSI-data för att förbättra den geografiska överförbarheten av stadskartläggningsmodeller. Metoden använder en ConvNet-arkitektur med dubbla flöden för att kartlägga bebyggda områden separat från SAR- och optiska bilder. Genom att anta att konsekventa kartor ska produceras för båda modaliteterna införs en oövervakad förlust för omärkta data för att straffa avvikelser mellan dem. En omfattande utvärdering med hjälp av annoteringar från SpaceNet 7 multi-temporala dataset för byggnadsövervakning visade att denna SSL-metod (F1-poäng 0,694) överträffar flera övervakade metoder (F1-poäng från 0,574 till 0,651). Dessutom producerar den kartor över uppbyggda områden som konkurrerar med eller överträffar globala kartor över mänskliga bosättningar som GHS-BUILT-S2 och WSF 2019.

För CD i städer föreslås en ny nätverksarkitektur för sammanslagning av bi-temporala Sentinel-1 SAR- och Sentinel-2 MSI-bildpar. Denna arkitektur använder en dubbel strömdesign för att bearbeta varje modalitet genom separata ConvNets innan de extraherade funktionerna kombineras i ett senare skede. Den föreslagna strategin överträffar andra ConvNet-baserade metoder, både med uni-modal och multimodal data. Dessutom uppnår den toppmodern (SOTA) prestanda på Onera Satellite CD-dataset (F1-poäng 0,600).

På grundval av detta utvecklades en andra nätverksarkitektur för att anpassa metoden för förbättring av överförbarheten för CD i städer. Denna metod använder bi-temporala Sentinel-1 SAR- och Sentinel-2 MSI-bildpar och matar ut stadsförändringar med hjälp av en differensavkodare samtidigt som bebyggda områden kartläggs med en semantisk avkodare. I likhet med metoden för stadskartläggning straffas inkonsekvenser i kartor över bebyggda områden över modaliteter på omärkta data. Utvärdering på SpaceNet 7-datasetet, förbättrat med Sentinel-1 SAR och Sentinel-2 MSI-data, visar att metoden fungerar bra under begränsade etikettförhållanden, uppnår en F1-poäng på 0,555 med alla tillgängliga etiketter och levererar rimliga CD-resultat (F1-poäng på 0,491) även med endast 10 \% av de märkta data. Däremot lyckades inte övervakade multimodala metoder och SSL-metoder som använder optiska data överstiga en F1-poäng på 0,402 under detta villkor.

En tredje urban CD-metod fokuserar på att upptäcka förändringar i på varandra följande bilder av SITS (dvs. kontinuerlig urban CD). Denna metod introducerar en temporal funktionsförfiningsmodul som använder självupp-märksamhet för att förbättra ConvNet-baserade multitemporala representationer av byggnader. Dessutom föreslås en integrationsmodul med flera uppgifter som använder Markov-nätverk för att generera optimala tidsserier för byggnadskartor baserat på segmentering och täta förändringsutgångar. Den föreslagna metoden identifierar effektivt stadsförändringar i högupplösta SITS från PlanetScope (F1-poäng 0,551) och Gaofen-2 (F1-poäng 0,440), vilket visar överlägsen prestanda jämfört med bi-temporala och multi-temporala urbana CD- och segmenteringsmetoder på två utmanande dataset.

Slutligen utvecklar avhandlingen ett baslinjenätverk för detektering av byggnadsskador med flera faror med hjälp av xBD-datasetet, som innehåller bi-temporala bilder tagna före och efter naturkatastrofer. Studien undersöker modellens överförbarhet mellan olika katastroftyper genom att använda en omfattande datasetdelning och föreslår att katastrofspecifik information in-förlivas i baslinjemodellen för att ta hänsyn till katastrofspecifika skadeegenskaper. Den katastrofadaptiva modellen visar förbättrad generalisering till osedda händelser jämfört med flera konkurrerande metoder.

Denna avhandling behandlar viktiga utmaningar inom stadskartläggning och urban CD, inklusive detektering av byggnadsskador med flera faror. Genom att utveckla metoder som utnyttjar EO-data från flera sensorer och DL-tekniker ger den här avhandlingen viktiga bidrag till snabb och tillförlitlig produktion av stadsdata, vilket stöder hållbar stadsplanering och indikatorer för hållbara utvecklingsmål (SDG) i städer.

urn.kb.se/resolve?urn=urn:nbn:se:kth:diva-356875