Till innehåll på sidan

Towards Privacy Preserving Intelligent Systems

Tid: Fr 2023-06-02 kl 09.00

Plats: E2, Lindstedtsvägen 3, Stockholm

Videolänk: https://kth-se.zoom.us/j/66441177033

Språk: Engelska

Ämnesområde: Datalogi

Respondent: Md Sakib Nizam Khan , Teoretisk datalogi, TCS

Opponent: Professor Vicenc Torra, Umeå University

Handledare: Professor Sonja Buchegger, Teoretisk datalogi, TCS

Exportera till kalender

QC 20230510

Abstract

Intelligenta system, d.v.s. digitala system som innehåller smarta enheter som kan samla in, analysera och agera beroende på den data de samlar in från sin omgivning, har gått från teori till tillämpning, särskilt under det senaste decenniet, tack vare tekniska framsteg inom sensorer och maskininlärning. Dessa system kan fatta beslut åt användarna på ett dynamiskt sätt genom att lära sig deras beteende över tid. Antalet sådana smarta enheter i vår omgivning  ökar snabbt. Eftersom dessa enheter i de flesta fall hanterar integritetskänsliga data, ökar integritetsproblemen också i samma takt. Dock har forskningen kring skydd av personlig information och integritet inte varit i synk med denna utveckling. Dessutom är systemenheterogena (t.ex. när det gäller formfaktor, energi, beräkningskapacitet, användningsområden, etc.) och de utvecklas ständigt vilket gör att integritetsproblem blir ännu mer utmanande.

I denna avhandling identifierar vi integritetsproblem för intelligenta system och föreslår lösningar på några av de mest framstående problemen. Vi undersöker först integritetsproblem i samband med data som lagras på en enda smart enhet. Vi noterar att när en smart enhete byter ägare kan integritetskänslig information lagrad på enheten komma i orätta händer. För att lösa detta föreslår vi ett ramverk för att förbättra integriteten för ägarna under sådana ägarbyten. Ramverket använder sig av tekniker för att detektera miljöombyte och kryptering av data. Sedan går vi från scenariot med en enda enhet till mer komplexa system som involverar flera enheter. Vi genomför en systematisk litteraturstudie och en genomgång av kommersiella system för att identifiera de unika integritetsproblemen som uppstår hos hembaserade hälsoövervakningssystem. Från studien destillerar vi en gemensam arkitektur som täcker de flesta kommersiella och akademiskt producerade system, samt en inventering av vilka problem de tar upp, deras integritetshänsyn och hur de hanterar ägarens data. Utifrån detta har vi då identifierat potentiella ställen för integritetsskydd för sådana system.

För att dela insamlad data eller en maskininlärningsmodell tränad på sådana data med andra utforksar vi huruvida syntetiskt data kan användas som ett verktyg för att uppnå en bättre avvägning mellan integritet och nytta jämfört med traditionella integritetshöjande tillvägagångssätt. Vi gör en grundlig bedömning av användbarheten av syntetiska tabelldata vad gäller korrekthet. Vår undersökning visar att ingen av de vanliga måtten för hur väl syntetisk data motsvarar originaldata kan förutsäga om, för en given univariat eller multivariat statistisk analys (när analysen inte är känd i förväg), syntetiska data uppnår nytta liknande originaldata. För maskininlärningsbaserade klassificeringsuppgifter visar dock metriken överlapp av konfidensintervaller en stark korrelation mellan hur lika maskininlärningsmodellerna (d.v.s. tränade på syntetiska vs. originaldata) presterar. När det gäller integritet utforskar vi attacker mot maskininlärningsmodeller som syftar till ta reda på om vissa (eller någons) särskilda data användes för att träna modellen. Vår forskning visar att träning på syntetisk data istället av originaldata kan avsevärt minska effektiviteten av sådana attacker. För bilddata föreslår vi en ny metod för att kvantifiera, förbättra och justera avvägningen mellan integritet och nytta jämfört med de traditionella metoderna.

Sammantaget visar vår utforskning i denna avhandling att det finns flera öppna forskningsfrågor angående integritet vid olika faser av databehandling inom intelligenta system, så som integritetsbevarande datalagring, möjliga oönskade slutsatser på grund av dataaggregering, och kvantifiering och förbätt-ring av avvägningen mellan integritet och nytta av data, för att uppnå bättre nytta på en acceptabel nivå av integritet när man delar data med andra. De identifierade integritetsproblemen och deras motsvarande lösningar som presenteras i denna avhandling kommer att hjälpa forskarsamhället att känna igen och åtgärda återstående integritetsproblem i domänen. Om problemen lösas kommer det att uppmuntra slutanvändarna att använda nya system och dra nytta av fördelarna utan att behöva oroa sig för integritet. 

urn.kb.se/resolve?urn=urn:nbn:se:kth:diva-326694