Till innehåll på sidan
Till KTH:s startsida

Advancing Geospatial Foundation Models: Generative Representations and Global Benchmarking

Tid: Ti 2026-06-09 kl 10.00

Plats: E32, Lindstedtvägen 3, Campus, public video conference [MISSING]

Språk: Engelska

Ämnesområde: Geodesi och geoinformatik, Geoinformatik

Licentiand: Yuru Jia , Geoinformatik, KU Leuven

Granskare: Professor Sébastien Lefèvre, Université Bretagne Sud (UBS), Vannes, France

Huvudhandledare: Professor Yifang Ban, Geoinformatik; Associate Professor Andrea Nascetti, Geoinformatik

Exportera till kalender

QC 20260528

Abstract

Explosionen av jordobservationsdata (Earth Observation, EO) har drivit på en snabb utveckling av geospatiala grundmodeller (Geospatial Foundation Models, GFMs) som tränats via självövervakad inlärning (Self-Supervised Learning, SSL). Även om nuvarande diskriminativa SSL-paradigm, såsom kontrastiv inlärning och maskerad bildmodellering (masked image modeling), har nått betydande framgångar, har de ofta svårt att fånga de finkorniga rumsliga detaljerna och den flerskaliga komplexiteten som är inneboende i satellitbilder. Dessutom har den snabba arkitektoniska utvecklingen av dessa modeller sprungit ifrån den metodik som används för att utvärdera dem. Existerande utvärderingsramverk (benchmarks) lider ofta av geografiska skevheter, saknar multimodal och multitemporal mångfald, och förlitar sig på alltför förenklade klassificeringsuppgifter på bildnivå. Detta döljer de moderna grundmodellernas sanna förmågor och sårbarheter i verkliga tillämpningar.

För att hantera dessa representationsbegränsningar undersöker denna avhandling först den outnyttjade potentialen hos generativa diffusionsmodeller för diskriminativ representationsinlärning. Vi introducerar SatDiFuser, ett nyskapande ramverk som återanvänder en storskalig, förtränad latent diffusionsmodell för täta fjärranalysuppgifter. Genom att extrahera särdrag över flera skalor och tidssteg från den iterativa brusreduceringsprocessen och systematiskt aggregera dem genom avancerade fusionsstrategier – inklusive global viktning, lokaliserad viktning och en Mixture of Experts (MoE)-mekanism – transformerar SatDiFuser framgångsrikt generativa rumsliga förkunskaper till robusta diskriminativa särdrag. Detta demonstrerar överlägsen prestanda på standardiserade geospatiala riktmärken.

Även om utforskandet av nya representationsarkitekturer är avgörande, kräver en noggrann bedömning av det snabbt växande GFM-landskapet att en andra fundamental utmaning övervinns: otillräckligheten i nuvarande utvärderingsprotokoll. För att överbrygga denna kritiska utvärderingsklyfta introducerar denna avhandling därefter PANGAEA: ett globalt inkluderande, standardiserat riktmärke (benchmark). PANGAEA omfattar 11 mångsidiga dataset tvärs över fem kritiska domäner (stadsmiljö, jordbruk, katastrofhantering, marin miljö och skogsbruk) och utvärderar uteslutande modeller på komplexa, täta pixelbaserade uppgifter, samtidigt som hänsyn tas till varierande rumslig upplösning, multimodalitet (optisk och SAR) samt multitemporal dynamik. Omfattande prestandamätningar av representativa GFM:er avslöjar kritiska insikter i deras generaliseringsförmåga, robusthet vid databrist och nuvarande begränsningar i multisensorfusion. I slutändan överbryggar denna avhandling klyftan mellan generativ representationsinlärning och rigorös global utvärdering, vilket lägger en robust grund för utveckling och bedömning av nästa generation av geospatiala grundmodeller.

Link to DiVA