Mobile Phone Data Analytics to Support Disaster and Disease Outbreak Response
Tid: On 2024-11-27 kl 13.00
Plats: Kollegiesalen, Brinellvägen 8, Stockholm
Videolänk: https://kth-se.zoom.us/j/67011152784
Språk: Engelska
Ämnesområde: Geodesi och geoinformatik, Geoinformatik
Respondent: Silvino Pedro Cumbane , Geoinformatik
Opponent: Professor John Östh, Oslo Metropolitan University
Handledare: Professor Yifang Ban, Geoinformatik; Associated Professor Gyözö Gidofalvi, Geoinformatik
Abstract
Naturkatastrofer leder till förödande förluster i människoliv, miljötillgångar ochpersonlig, regional och nationell ekonomi. Tillgängligheten till olika data, såsomsatellitbilder, GPS-spår (Global Positioning System), detaljerade register av mobilsamtal (CDR), inlägg på sociala medier etc., i kombination med framsteg inomdataanalystekniker (t.ex. datautvinning och stordataberarbetning, maskininlärningoch djupinlärning) kan underlätta utvinningen av geospatial information som är avgörande för snabb och effektiv katastrofinsats. Utvecklingen av katastrofinsatssystem kräver dock vanligtvis integration av data från olika källor (strömmandedatakällor och data i vila) med olika egenskaper och typer, vilka följaktligen harolika bearbetningsbehov. Att bestämma vilket bearbetningsramverk som ska användas för en specifik datatyp för att utföra en given uppgift är vanligtvis en utmaning för forskare från katastrofhanteringsområdet. Medan många uppgifter kanutföras med befolknings- och rörelsedata, är en nyckeluppgift, och utan tvekan denviktigaste uppgiften för katastrofhantering, att analysera befolkningens förflyttningunder och efter en katastrof. I denna avhandling inhämtades därför kunskapen ochramverket genom en litteraturstudie. Dess resultat användes för att välja verktygoch bearbetningsstrategier för att utföra en analys av befolkningsförflyttning efter en katastrof. Detta är ett användningsfall av ramverket samt en illustration avvärdet av och utmaningarna i (t.ex. luckor i data på grund av strömavbrott) attanvända CDR-dataanalys för att stödja katastrofhantering.Mängden av förflyttad befolkning härleddes genom att analysera variationenvid hemmobilmasten för varje anonymiserad mobiltelefonabonnent före och efteren katastrof med hjälp av CDR-data. Metodens effektivitet utvärderas med hjälpav fjärranalysbaserad skadebedömning av byggnader och en Displacement Tracking Matrix (DTM) från individers enkätsvar samlat i skyddsrum efter en allvarlig cyklon i Beira stad, centrala Moçambique, i mars 2019. Resultaten visar enuppmuntrande korrelationskoefficient (över 70 %) mellan antalet ankomster i varjegrannskap uppskattad med hjälp av CDR-data och från DTM. Utöver detta härleder CDR-baserad analys den rumsliga fördelningen av fördrivna befolkningar medhög täckning av människor, dvs. inklusive inte bara personer i skyddsrum utan allasom använde en mobiltelefon före och efter katastrofen. Resultaten tyder dessutompå att om CDR-data är tillgängliga efter en katastrof kan befolkningsförflyttningaruppskattas. Denna information kan användas för insatser, till exempel för att bidra till att minska vattenburna sjukdomar (t.ex. diarrésjukdomar) och sjukdomar isamband med trängsel (t.ex. akuta luftvägsinfektioner) i skyddsrum och värdsamhällen.Även om covid-19 inte är en sjukdom efter en katastrof, är det en akut luftvägssjukdom som kan vara allvarlig. Genom att anta att dess egenskaper kan liknaen akut luftvägsinfektion efter en katastrof testades en djupinlärningsmetod för attförutsäga spridningen av covid-19. Den testade djupinlärningsmetoden består avflerskikts BiLSTM. För att träna modellen användes mobilitetsdata från Google,viisamt temperatur och relativ luftfuktighet för att förutsäga dagliga covid-19-falli låginkomstländer. Prestandan för den föreslagna flerskikts BiLSTM utvärderasgenom att jämföra dess RMSE med den från flerskikts LSTM (med samma inställningar som BiLSTM) i fyra utvecklingsländer, nämligen Moçambique, Rwanda, Nepal och Myanmar. Den föreslagna flerskikts BiLSTM överträffade flerskikts LSTMi alla fyra länderna. Den föreslagna flerskikts BiLSTM utvärderades också genomatt jämföra dess root mean squared error (RMSE) med flerskikts LSTM-modeller,ARIMA- och staplade LSTM-baserade modeller i åtta länder, nämligen Italien,Turkiet, Australien, Brasilien, Kanada, Egypten, Japan och Storbritannien. Slutligen utvärderades den föreslagna flerskikts BiLSTM-modellen på stadsnivå genomatt jämföra dess genomsnittliga relativa fel (ARE) med de andra fyra modellerna,nämligen den LSTM-baserade modellen med hänsyn till flerskiktsarkitektur, Google Cloud Forecasting, den LSTM-baserade modellen med enbart mobilitetsdata,och den LSTM-baserade modellen med mobilitet, temperatur och relativ luftfuktighetsdata för sju perioder (på 28 dagar vardera) i sex tätbefolkade regioner iJapan, nämligen Tokyo, Aichi, Osaka, Hyogo, Kyoto och Fukuoka. Den föreslagnaflerskikts BiLSTM-modellen överträffade flerskikts LSTM-modellen och andra tidigare modeller med upp till 1,6 respektive 0,6 gånger i termer av RMSE respektiveARE. Därför möjliggör den föreslagna modellen en mer exakt prognostisering avcovid-19-fall. Detta kan stödja regeringar och hälsovårdsmyndigheter i deras beslut,främst i utvecklingsländer med begränsade resurser.Förutom att förstå sjukdomsspridningsdynamiken är snabb implementering avkontrollåtgärder avgörande vid ett utbrott efter en katastrof. Detta är avgörandeför att stoppa spridningen av sjukdomen. Dess implementering måste dock baseraspå välgrundade beslut. För att stödja beslutsfattarna testades därför en datadriven metod för att uppskatta den spatiotemporala exponeringsrisken för platsermed hjälp av mobiltelefondata. Metoden använde anonymiserade CDR:er från enav de största mobilnätoperatörerna i Moçambique för att uppskatta de dagligaursprungs-destinationsmatriserna (OD-matriser). De dagliga OD-matriserna uppskattas på provinsnivå eftersom tillgängliga dagliga covid-19-fall (valideringsdata)är på den nivån. Covid-19 användes som en proxy för en sjukdom efter en katastrofpå grund av bristen på dagliga verkliga data om en sjukdom efter en naturkatastrofi Moçambique. De uppskattade dagliga OD-matriserna används sedan för att konstruera de dagliga riktade viktade nätverk, där noderna representerar provinser, ochkanterna, människorna som flödar mellan varje par av provinser. Sedan användestre centralitetsmått, nämligen viktad ingradscentralitet, förbättrad ingradscentralitet och viktad PageRank för att uppskatta den dagliga exponeringsrisken för varjeprovins. Resultaten utvärderades genom att beräkna Spearmans-rang korrelationmellan riskpoäng uppskattad med hjälp av de dagliga rapporterade covid-19-fallenoch exponeringsrisken uppskattad med hjälp av de tre måtten. Jämförelseresultaten visade att den övergripande viktade PageRank-algoritmen är det bästa måttetför att uppskatta exponeringsrisken jämfört med de andra två måtten. I enlighet med detta implementerades tre Poisson-regressionsmodeller för att modellerasambandet mellan covid-19-fallen i varje provins och motsvarande exponeringsriskviiiuppskattad med hjälp av de tre centralitetsmåtten. Resultaten visade att koefficienterna för modellerna uppskattade med maximum likelihood-metoden är statistisktsignifikanta (p-värde <0,05). Detta innebär att exponeringsrisken faktiskt påverkarantalet covid-19-fall. Eftersom tecknet på koefficienterna för modellerna är positivt, drar vi slutsatsen att antalet covid-19-fall i varje provins ökar med en ökningav den rumsliga exponeringsrisken. Analysen genomfördes också på distriktsnivå,dvs. i Greater Maputo Area (GMA), som ligger i södra delen av Moçambique ochbestår av alla Maputo’s stadsdistrikt (förutom Kanyaka), Matola stad, MatolaRio, Boane och Marracuene distrikt. På grund av bristen på dagliga covid-19-fallpå distriktsnivå gjordes dock utvärderingen genom att jämföra den dagliga exponeringsrisken uppskattad med hjälp av de tre centralitetsmåtten och fördelningenav olika typer av intressanta platser, nämligen kommersiella, utbildnings-, finans-,regerings-, hälsovårds-, offentliga, sport- och transportrelaterade platser. Resultatenvisade god Spearmans-rang korrelation mellan utbildnings-, finans- och transportrelaterade intressanta platser och de tre centralitetsmåtten. Regeringsrelateradeintressanta platser presenterade de lägsta korrelationsresultaten jämfört med de trecentralitetsmåtten. Resterande intressanta platser visade medel-låg till medelhögSpearmans korrelationskoefficient jämfört med de tre centralitetsmåtten. Därförkan anonymiserade CDR:er i kombination med viktad PageRank-algoritm hjälpabeslutsfattare att uppskatta exponeringsrisken vid ett utbrott och därmed minska effekterna av en sjukdom på människoliv genom att införa flera välgrundadeinsatser för att begränsa och fördröja dess spridning.