Generative Deep Learning in Remote Sensing for Wildfire Monitoring
Tid: To 2025-06-12 kl 14.30
Plats: D31, Lindstedtsvägen 5, Stockholm
Videolänk: https://kth-se.zoom.us/j/64930192359
Språk: Engelska
Ämnesområde: Geodesi och geoinformatik, Geoinformatik
Licentiand: Eric Brune , Geoinformatik
Granskare: Professor (visiting) Pedram Ghamisi, Lancaster University, England. Group leader Machine Learning at Helmholtz-Zentruni Dresden-Rossendorf, Freiberg, Germany
Huvudhandledare: Professor Yifang Ban, Geoinformatik
QC 20250522
Abstract
Skogsbränder utgör ett växande globalt problem, intensifierat av klimatförändringar,vilket kräver effektiva övervakningsstrategier. Även om satellitbaseradfjärranalys är högst relevant för denna uppgift, står den inför begränsningarrelaterade till sensorkapacitet. Högupplösta optiska sensorer somSentinel-2 MultiSpectral Instrument (MSI) (10–20 m) ger detaljerad spatialinformation men har långa återbesökstider på cirka 5 dagar och kan inte se genommoln eller rök. Omvänt erbjuder medelupplösta sensorer som Terra/AquaMODIS daglig täckning men dess upplösning (250–500 m) är för låg för detaljeradsegmentering av brända områden. Synthetic Aperture Radar (SAR)från sensorer som Sentinel-1 SAR producerar bilddata i alla väder men påverkasav speckle-brus och komplexa signalspridningsmekanismer, vilket görtolkningen svår. Denna avhandling undersöker hur generativ djupinlärning,specifikt conditional Diffusion Models (DM), kan hjälpa till att överbryggadessa grundläggande utmaningar inom satellitbaserad skogsbrandsövervakninggenom att syntetisera högupplöst information som är redo för analys.Dessa modeller har visat sig skickliga på att lära sig komplexa datadistributioneroch generera högkvalitativa datapunkter, vilket gör dem lämpliga försyntes och bildöversättning.
Målet med denna avhandling är att generera högupplösta (≤ 30 m) optiskarepresentationer av skogsbränder och att kartlägga brända områden,övervinna två olika sensorbegränsningar. Detta mål eftersträvas genom tvåspecifika mål. Det första målet är att utvärdera och utveckla en multi-taskDM som kan sammansmälta måttlig upplösning, högfrekvent optisk data medhögupplöst, lägre frekvens optisk data för att generera dagliga, högupplöstarepresentationer av förhållanden efter brand, inklusive både uppskalade bilderoch brända områdessegmenteringskartor. Det andra målet är att designaoch bedöma en DM för att översätta SAR-data till optiskt liknande bilder förscener efter brand, med målet att möjliggöra exakt nedströms segmenteringav brända områden även när optiska data inte är tillgängliga.
För att uppnå det första delmålet utvecklades en ny Multi-task LearningDM, FireSR-DDPM. Den använder en U-Net-struktur inom ramverketför Denoising Diffusion Probabilistic Models (DDPM) och är betingad påMODIS-bilder efter brand (röda, NIR-, SWIR-band) och Sentinel-2 MSI-dataföre brand. FireSR-DDPM genererar både en åttafaldigt uppskalad bild efterbrand till nära Sentinel-2 MSI:s ursprungliga upplösning och en samtidig segmenteringsmaskför brända områden via parallella decoders från en gemensamencoder. Multi-task learning möjliggör synergistisk inlärning, där spatiala detaljerfrån uppskalning hjälper segmentering och semantisk kontext från segmenteringvägleder bildgenerering. En ytterligare egenskap hos arkitekturenär en Feature Affinity loss, som explicit främjar konsekventa representationermellan decoders, vilket förbättrar effektiviteten hos den gemensammaoptimeringen för uppskalningen och segmenteringen. Tränad och valideradmed data från 1 079 kanadensiska skogsbränder (≥ 2 000 ha, 2017–2022) medNational Burned Area Composite (NBAC)-polygoner som referens, visadeFireSR-DDPM prestandaförbättringar på testdata från 2023. Den uppnåddehög segmenteringsnoggrannhet (F1 = 0.8983, IoU = 0.8153) och förbättradviperceptuell kvalitet i uppskalning (LPIPS = 0.1134), och överträffade tydligtjämförelsemetoder med single-task learning eller sekventiella metoder. Modellensförmåga att generera flera utdata från samma indata användes också föratt härleda empiriska konfidenskartor för segmenteringsresultaten utan behovav separat kalibrering.
För det andra delmålet föreslogs en beräkningseffektiv transformer-baseradDM, Swin-U-DiT, för SAR-till-optisk översättning. Denna arkitektur kombineraren hierarkisk U-Net-struktur, kapabel till att fånga kontext i flera skalor,med innovativa bearbetningsblock. Dessa block integrerar effektiviteten hosSwin Transformerns fönsterbaserade self-attention med U-DiT-konceptet atttillämpa self-attention på spatialt nedsamplade interna representationer. Dennadesign minskar avsevärt beräkningskraven för self-attention jämfört medstandardmetoder baserade på Vision Transformer, samtidigt som den bibehållerstark prestanda. Betingad via kanalvis sammanlänkning på Sentinel-1 SARföre brand (VV, VH), Sentinel-1 SAR efter brand (VV, VH) och Sentinel-2MSI-data före brand, lär sig Swin-U-DiT att generera motsvarande Sentinel-2MSI-reflektansbild efter brand. Vid utvärdering på 335 kanadensiska bränderfrån 2022 producerade Swin-U-DiT bilder med signifikant högre fidelitet(Fréchet Inception Distance FID = 44.3, LPIPS = 0.304) än en standardPix2Pix GAN-metod. Viktigt är att det praktiska värdet av de genereradebilderna bekräftades genom utvärdering av följande: att använda de Swin-UDiT-översatta bilderna som indata till en fast segmenterings-U-Net (tränad påverkliga MSI-data) förbättrade segmenteringen av brända områden avsevärtfrån F1 = 0.697 (med endast SAR och optiska data före brand) till 0.804. Ettviktigt resultat var modellens effektivitet: denna prestandaökning uppnåddesmed endast tre DDIM-samplingssteg. Detta motsvarar en bearbetningstid påmindre än fem minuter för en 250km × 100km scen på en enda GPU (NVIDIARTX 3080), vilket bekräftar dess lämplighet för regional övervakning inära realtid.
Sammanfattningsvis uppnåddes båda forskningsmålen framgångsrikt. Denya bidragen inkluderar: (i) integrationen av 8× superupplösning och segmenteringinom en enda generativ multiuppgifts-DM (FireSR-DDPM); (ii)designen av en effektiv SAR-till-optisk-översättningsarkitektur (Swin-U-DiT)som kombinerar principer från Swin Transformer och U-DiT inom ett diffusionsramverk;och (iii) demonstrationen att hög prestanda på efterföljandeuppgifter kan uppnås med mycket få diffusionssamplingssteg, vilket förbättrarden praktiska genomförbarheten. Dessa metoder representerar framstegför operativ skogsbrandsövervakning. Framtida arbete inkluderar att utökamodellträningen till olika globala biom, införliva sekvensmodellering för attanalysera brandförloppsdynamik, och utforska modelldestillering för ytterligareförbättringar av inferenshastigheten.