Privacy preserving behaviour learning for the IoT ecosystem
Tid: Fr 2021-12-17 kl 14.00
Plats: Ka-Sal C (Sven-Olof Öhrvik), Kistagången 16, Kista
Videolänk: https://kth-se.zoom.us/meeting/register/u5Ysd-qurj4sGdEM-l9Si4c93uwsoh2iKBG8
Språk: Engelska
Ämnesområde: Informations- och kommunikationsteknik
Respondent: Sana Imtiaz , Programvaruteknik och datorsystem, SCS
Opponent: Professor Omer Rana, Cardiff University, United Kingdom
Handledare: Professor Vladimir Vlassov, Programvaruteknik och datorsystem, SCS; Ramin Sadre, Université catholique de Louvain, Belgium; Sarunas Girdzijauskas, Programvaruteknik och datorsystem, SCS
This work was supported by the Erasmus Mundus Joint Doctorate in Distributed Computing (EMJD-DC) funded by the Education, Audiovisual and Culture Executive Agency (EACEA) of the European Commission under the FPA 2012-0030, and FoFu at KTH.
QC 20211123
Abstract
IoT har möjliggjort skapandet av en mängd personliga applikationer och tjänster för en bättre förståelse och förbättring av stadsmiljöer och våra personliga liv. Dessa tjänster drivs av kontinuerlig insamling och analys av känslig och privat användardata för att ge personliga upplevelser. Bland de olika applikationsom- rådena för IoT, kräver i synnerhet smart hälsovård användningen av tekniker för bevarande av integritet för att garantera skydd mot användarnas integritetsintrång, såsom identifiering, profilering, lokalisering och spårning och informationskopp- ling. Traditionella tekniker för bevarande av integritet som pseudonymisering är inte längre tillräckliga för att tillgodose kraven på bevarande av integritet i den snabbväxande smarta hälsovårdsdomänen på grund av de utmaningar som stora datamängder, hastighet och variation forcerar. Å andra sidan finns det ett antal moderna tekniker för bevarande av integritet med respektive omkostnader som kan ha en negativ inverkan på applikationsprestanda såsom minskad noggrannhet, minskad datanytta och ökad resursanvändning på enheten. Det finns ett behov av att välja lämpliga sekretessskyddstekniker (och lösningar) i enlighet med datas natur, systemprestandakrav och resursbegränsningar, för att hitta korrekta avvägning- ar mellan tillhandahållande av integritetsbevarande, dataverktyg och acceptabel systemprestanda i form av av noggrannhet, körtid och resursförbrukning.
I detta arbete undersöker vi olika lösningar för bevarande av integritet och mäter effekten av att introducera våra utvalda lösningar för bevarande av integritet på prestandan hos olika komponenter i IoT-ekosystemet när det gäller datanytta och systemprestanda. Vi implementerar, illustrerar och utvärderar resultaten av våra föreslagna tillvägagångssätt med hjälp av verkliga och syntetiska integritets- bevarande smarta hälsodatauppsättningar. Först tillhandahåller vi en detaljerad taxonomi och analys av tekniker och lösningar för bevarande av integritet som kan fungera som en riktlinje för att välja lämpliga tekniker i enlighet med typen av data och systemkrav. Därefter, för att underlätta integritetsbevarande datadelning, presenterar och implementerar vi en metod för att skapa realistiska syntetiska och integritetsbevarande smarta hälsovårdsdatauppsättningar med hjälp av Ge- nerative Adversarial Networks och Differential Privacy. Senare presenterar och utvecklar vi också en lösning för integritetsbevarande dataanalys, ett differentiellt integritetsbibliotek PyDPLib, med sjukvårdsdata som ett användningsfall.
För att hitta korrekta avvägningar mellan tillhandahållande av nödvändig integri- tetsbevarande, enhetsresursförbrukning och applikationsnoggrannhet presenterar och implementerar vi ett nytt tillvägagångssätt med motsvarande algoritmer och en end-to-end systempipeline för omkonfigurerbar datasekretess i maskininlärning på resursbegränsade datorenheter. Våra utvärderingsresultat visar att, samtidigt som vi tillhandahåller den nödvändiga integritetsnivån, tillåter vårt föreslagna tillvägagångssätt oss att uppnå upp till 26,21% minne, 16,67% CPU-instruktioner och 30,5% av besparingar på nätverkets bandbredd jämfört med att göra all datasammanfattning viiprivat. Dessutom presenterar och implementerar vi också en helhetslösning för integritetsbevarande tidsserieprognoser för användarhälsodataströmmar med hjälp av Federated Learning och Differential Privacy. Vår föreslagna lösning finner en lämplig avvägning mellan att tillhandahålla nödvändig integritetsbevarande, ap- plikationsnoggrannhet och körtid, och introducerar i bästa fall en minskning med ≈ 2% i prediktionsnoggrannheten för de tränade modellerna.