Till innehåll på sidan
Till KTH:s startsida

Machine Learning with Decentralized Data and Differential Privacy

New Methods for Training, Inference and Sampling

Tid: On 2025-06-11 kl 10.00

Plats: D3, Lindstedtsvägen 5, Stockholm

Videolänk: https://kth-se.zoom.us/j/69506042503

Språk: Engelska

Ämnesområde: Datalogi

Respondent: Dominik Fay , Reglerteknik

Opponent: Senior researcher Aurélien Bellet, Inria, Montpellier, France

Handledare: Professor Mikael Johansson, Reglerteknik; Professor Tobias J. Oechtering, Teknisk informationsvetenskap; Assistant Professor Jens Sjölund, Uppsala University

Exportera till kalender

QC 20250519

Abstract

Skalning har varit en avgörande drivkraft för framsteg inom den senaste maskininlärningsforskningen. Datamängder och beräkningsresurser har vuxit kraftigt och i takt med detta modeller och algoritmer som kan utnyttja dessa. Dock finns det i många viktiga tillämpningar två begränsningar för datainsamling. För det första finns data ofta bakom lås och kan inte delas mellan aktörer. Detta är vanligt inom medicinområdet, där patientdata kontrolleras av olika kliniker. För det andra är maskininlärningsmodeller benägna att memorera. När det gäller känsliga data är det därför ofta önskvärt att ha formella integritetsgarantier för att säkerställa att ingen känslig information kan rekonstrueras från tränade modeller.

Ämnet för denna avhandling är utformningen av maskininlärningsalgoritmer som anpassar sig till dessa två begränsningar: att fungera på decentraliserade data och att uppfylla formella integritetsgarantier. Vi studerar två breda kategorier av maskininlärningsalgoritmer för decentraliserade data: federerad inlärning och ensemblemetoder för lokala modeller. I federerad inlärning samarbetar flera klienter under träningen, samordnade av en central server. I ensemblemetoder för lokala modeller tränar varje klient först en lokal modell på sina egna data och samarbetar sedan med andra klienter under inferens. Som en formell integritetsgaranti använder vi differentiell integritet, som bygger på att lägga till artificiellt brus för att säkerställa medlemsintegritet. Differentiell integritet tillämpas vanligtvis på federerad inlärning genom att lägga till brus i modelluppdateringarna som skickas till servern, och på ensemblemetoder för lokala modeller genom att lägga till brus i förutsägelserna från de lokala modellerna.

Vår forskning behandlar följande kärnområden inom ramen för skalbar, integritetsbevarande maskininlärning: För det första undersöker vi implikationerna av datadimensionalitet på integriteten i samband med ensemblemetoder för medicinsk bildsegmentering. Vi utvidgar klassificeringsalgoritmen Private Aggregation of Teacher Ensembles (PATE) för att hantera högdimensionella etiketter, och visar att dimensionsreduktion kan förbättra avvägningen mellan integritet och nytta. För det andra beaktar vi hur valet av hyperparametrar påverkar integriteten. Här föreslår vi en ny adaptiv teknik för hyperparameterinställning i differentiellt privat gradientnedstigning, samt en adaptiv teknik för federerad inlärning med icke-släta förlustfunktioner. För det tredje undersöker vi samplingbaserade lösningar för att skala differentiellt privat maskininlärning till datamängder med ett stort antal poster. Vi studerar de integritetsförbättrande egenskaperna hos viktad sampling, och framhåller att den inte bara kan överträffa likformig underprovtagning vad gäller samplingeffektivitet, utan även integritet. För det fjärde studerar vi problemet med systematiska etikettsskillnader i ensemblemetoder för lokala modeller. Vi föreslår en ny metod baserad på etikettklustring för att möjliggöra flexibel samarbetevid inferens.

Teknikerna som utvecklats i denna avhandling förbättrar skalbarheten och lokaliteten hos maskininlärning samtidigt som robust integritetsskydd säkerställs. Detta utgör framsteg mot målet att säkert tillämpa maskininlärning på stora och mångsidiga datamängder för medicinsk bildanalys och liknande områden.

urn.kb.se/resolve?urn=urn:nbn:se:kth:diva-363514