Till innehåll på sidan
Till KTH:s startsida Till KTH:s startsida

Punktvist Maximalt Läckage

Robust, Flexibel och Förklarbar Dataintegritet

Tid: Fr 2024-02-09 kl 14.00

Plats: D3, D3, Lindstedtsvägen 9

Videolänk: https://kth-se.zoom.us/j/68572986531

Språk: Engelska

Ämnesområde: Elektro- och systemteknik

Respondent: Sara Saeidian , Teknisk informationsvetenskap

Opponent: Director of Research Catuscia Palamidessi, Laboratoire d'informatique de l'École polytechnique

Handledare: Professor Tobias J. Oechtering, Teknisk informationsvetenskap; Professor Mikael Skoglund, Teknisk informationsvetenskap; Giulia Cervia, IMT Nord Europe

Exportera till kalender

QC 20240115

Abstract

Att skydda känslig information mot oavsiktligt avslöjande har varit ett viktigt forskningsmål inom datavetenskap och informationsteori under de senaste decennierna. I synnerhet under de senaste två decennierna har ämnet dataintegritet fått stor uppmärksamhet, inte minst på grund av den omfattande datainsamlingen som pågår i stora delar av samhället. En central fråga inom området är "Vilka slutsatser kan dras om individer från de data som samlas in från dem?"

Denna avhandling fördjupar sig i teorin bakom dataintegritet från ett fundamentalt och tillämpningsoberoende perspektiv. Det övergripande målet är att skapa ett allsidigt ramverk för att designa och utvärdera dataintegritetsbevarande databehandlingssystem som följer tre essentiella kriterier:

  • Förklarbarhet. Definitionen av informationsläckage (eller minskningen av dataintegritet) i detta ramverk bör ha en operationell betydelse, det vill säga att definitionen uppkommer naturligt från en analys av potentiella fientliga attacker. Dataintegritetsgarantier inom detta ramverk bör också vara förståeliga för intressenter, och motsvarande dataintegritetsparametrar bör vara meningsfulla och tolkningsbara.
  • Robusthet. Definitionen av informationsläckage bör uppvisa motståndskraft mot en mångfald av potentiella fientliga attacker: definitionen bör vara tillämpbar på ett brett spektrum av fientliga attacker och undvika att göra restriktiva antaganden om den fientliga förmågan.
  • Flexibilitet. Ramverket bör vara användbart i ett brett spektrum av tillämpningar; både i situationer där dataintegritet är av yttersta vikt, och där kraven inte är lika strikta. Definitionen av informationsläckage bör också vara applicerbart på olika datatyper.

Definitionen av dataintegritet som presenteras i denna avhandling följer kriterierna ovan och kallas punktvist maximalt läckage (PML). PML är en stokastisk variabel som mäter mängden informationsläckage från en hemlig stokastisk variabel X till en relaterad, men publik, stokastisk variabel Y. Vi börjar med att definiera PML för diskreta stokastiska variabler genom studier av två till synes olika, men matematiskt ekvivalenta, attackscenarier: den slumpmässiga funktionsmodellen och vinstfunktionsmodellen. Vi vidareutvecklar vinstfunktionsmodellen till stokastiska variabler i godtyckliga sannolikhetsrum, vilket resulterar i en mer generell form av PML. Vidare studerar vi egenskaperna för PML före och efter databehandling och funktionskomposition; definierar flera dataintegritetsgarantier; samt jämför PML med existerande dataintegritetsdefinitioner, såsom differentiell dataintegritet och dess lokala variant.

Per definition är PML ett inferentiellt dataintegritetsmått, i bemärkelsen att det jämför en fiendes information om X före och efter databehandling. En vanlig missuppfattning inom forskningsfältet är dock att meningsfulla inferentiella dataintegritetsgarantier är ouppnåeliga. Detta beror på en övertolkning av ett resultat som kallas omöjligheten att helt förebygga informationsutlämnande. Genom en grundläggande perspektivförändring kan vi precist karaktärisera de typerna av informationsutlämnande som kan förebyggas genom dataintegritetsgarantier, och de som förblir oundvikliga. Med bakgrund av detta argumenterar vi för användandet av inferentiella dataintegritetsmått.

En tillämpning vi undersöker är ett vanligt maskininlärningsramverk för dataintegritetsbevarande inlärning som kallas Privat Aggregation av Lärarensembler (eng: Private Aggregation of Teacher Ensambles (PATE)), genom ett informationsteoretiskt dataintegritetsmått. Specifikt föreslår vi en betingad form av maximalt läckage för att kvantifiera mängden informationsläckage från individuella datapunkter, och visar att läckaget är Schur-konkavt när det tillagda bruset har en log-konkav sannolikhetsfördelning. Läckagets Schur-konkavitet innebär att ökad klassificeringsprestanda stärker dataintegriteten. Vi härleder också övre gränser på informationsläckaget när det tillagda bruset följer en Laplacefördelning. 

Till sist designar vi optimala dataintegritetsmekanismer som minimerar Hammingdistorsionen i situationer där det maximala läckaget är begränsat, under antagande att (i) a-priori-fördelningen är känd, (ii) a-priori-fördelningen tillhör en given mängd av möjliga sannolikhetsfördelningar. Vi visar att de mängder av a-priori-fördelningar som innehåller fler uniforma sannolikhetsfördelningar genererar större distorsion. Vi visar också att dataintegritetsmekanismer som distribuerar dataintegritetsbudgeten mer uniformt över utfallen ger upphov till mindre distorsion i värsta fall.

urn.kb.se/resolve?urn=urn:nbn:se:kth:diva-342126