Till innehåll på sidan
Till KTH:s startsida

Context-Aware Consensus for Efficient State Machine Replication

Tid: Må 2026-06-08 kl 14.00

Plats: Kollegiesalen, Brinellvägen 8, Stockholm

Språk: Engelska

Respondent: Harald Ng , Datatekniska och lärande system

Opponent: Professor Khuzaima Daudjee, Cheriton School of Computer Science, University of Waterloo, Waterloo, ON, Canada

Handledare: Associate professor Paris Carbone, Datatekniska och lärande system; Professor Sarunas Girdzijauskas,

Exportera till kalender

QC 20260513

Abstract

Konsensusprotokoll spelar en avgörande roll i distribuerade system. De möjliggör för flera oberoende noder att nå en oåterkallelig överenskommelse. Detta är grundläggande för att bygga replikerade tjänster som framstår som ett enda system med stark konsekvens och hög tillgänglighet. Idag är konsensusprotokoll centrala för en rad kritiska mjukvarutjänster, från orkestreringssystem till distribuerade databaser på global skala. Trots deras utbredda användning i diverse olika typer av system, följer konsensusprotokollen som används i praktiken en generell design som är oberoende av den exekveringsmiljö de verkar i. Betydande optimeringsmöjligheter förblir därmed outnyttjade på nätverks-, arbetsbelastning-, och lagringsnivån. Dessa möjligheter har blivit allt viktigare att utnyttja i takt med att moderna applikationer och infrastrukturer kräver högre prestanda, starkare feltolerans och mer flexibilitet än vad en allmän design medger.

Denna avhandling undersöker hur konsensusprotokoll kan göras kontextmedvetna för att förbättra deras feltolerans, prestanda och anpassningsförmåga. Vi presenterar fyra lösningar som utnyttjar egenskaperna hos det underliggande nätverket, arbetsbelastningen och lagringslagret. Omni-Paxos erbjuder ett principiellt sätt för att hantera partiella nätverksfel. UniCache minskar nätverkstrafiken genom att utnyttja återkommande mönster i applikationers arbetsbelastning. Metronome använder egenskaperna hos permanent lagring för att möjliggöra finjustering av avvägningen mellan prestandan under körtid och återhämtning från fel. AutoQ justerar kontinuerligt kritiska konfigurationsparametrar för att upprätthålla hög prestanda under dynamiska arbetsbelastningar i nätverk som sträcker sig över flera regioner. En kritisk aspekt är att dessa förbättringar implementeras som mekanismer som kan läggas till på befintliga protokoll, vilket undviker svårigheter med att skapa och implementera ett nytt protokoll från grunden. Sammantaget visar dessa bidrag att inbyggd kontextmedvetenhet möjliggör för etablerade konsensusprotokoll att möta de prestanda- och feltoleranskrav som moderna distribuerade system ställer.

Link to DiVA