Till innehåll på sidan

Netflix kommer till KTH

Det var när Netflix flyttade in i datormolnet 2011 som begreppet Chaos engineering myntades.

NYHET

Publicerad 2018-11-27

Den femte december är det dags för kaos. Ja, den andra upplagan av European Chaos Engineering Day alltså. Då besöker framgångsrika utvecklare från bland annat tv-tjänsten Netflix och it-giganten Oracle vår huvudstad och KTH för att berätta mer om tekniken chaos engineering.

Det sägs att Netflix var först med chaos engineering. Att företaget 2011 skapade Chaos Monkey som hade som uppdrag att helt på måfå ta kål på olika delar av Netflix serverfarmar och tjänster i skarp drift. Detta stundtals plågsamma arbetssätt att säkra den strömmande tv-tjänstens stabilitet skulle med tiden visa sig vara framgångsrik. Netflix allra mest grundläggande uppdrag, att strömma film, visade sig fungerade för det allra mesta trots de slumpmässiga störningarna.

En lärdom Netflix har gjort är att de lagt krut på att användaren i kortare perioder skulle kunna vara utan mindre kritiska delar av tjänsten, som exempelvis rekommendationsmotorn. Det kan fortfarande finnas alternativ, som listningen av de mest populära filmerna och tv-serierna just nu, att tillgå.

Martin Monperrus, professor i mjukvaruteknik vid KTH.

Numera växer intresset för chaos engineering från dag till annan, inte minst när allt fler it-företag och tjänsteleverantörer använder molnplattformar som till exempel Amazon Web Services.

Martin Monperrus, professor i mjukvaruteknik vid KTH och en av de som arrangerar konferensen European Chaos Engineering Day, berättar att Chaos Engineering är en ny teknik i utvecklarvärlden.

− Den består av mjukvara som stör produktionssystemen i realtid. Här används alltså ingen testmiljö, tekniken jobbar mot verkliga, affärskritiska system. Tekniken ser till att system, exempelvis Netflix eller Spotify, är tillräckligt robusta för att kunna hantera speciella typer av fel, buggar och säkerhetsbrister. Ett exempel är att man kan använda chaos engineering för att stänga ner produktionsservrar helt slumpmässigt för att se att de automatiskt startas upp och systemet jobbare vidare som vanligt.

Han berättar vidare att Netflix Chaos Monkey bara är ett sätt att störa ett datorsystem i produktion på. Sedan 2011 har utvecklare och forskare uppfunnit dussintals metoder att stressa och störa ut system på. Man kan lägga på fördröjningar - så kallad latency - i kommunikation eller till och med simulera att datorkommunikationen mellan kontintenter som Amerika och Europa går ner.

Chaos Monkey är en serie verktyg från Netflix för att testa olika aspekter av en molnbaserade mjukvara.

Chaos engineering är ett paradigmskifte inom mjukvaruutvecklingen som sträcker sig bortom tjänster i datormolnet men också traditionella tekniker för att testa mjukvaror. 

− Chaos engineering är inte bara applicerbart på det så kallade kommunikationslagret. Det fungerar även på applikationsnivån. En av mina forskarstuderande, Zhong Lang, arbetar med det inom ramen för Wallenberg Autonomous Systems and Software Program (WASP). Chaos engineering kommer också att bli en allt mer betydelsefull teknik bortom renodlade mjukvarubaserade system. Vill du till exempel testa hur bra en självkörande bil klarar sig utan en eller flera sensorer är ett sätt att göra det via simuleringar att dessa givare är trasiga, säger Martin Monperrus.

Konferensen äger rum på KTH:s centrala campus, Teknikringen 76 och V1, den femte december mellan 09:00 och 17:00. Här kan du läsa mer om European Chaos Engineering Day  och här kan du anmäla dig . Den som vill veta mer om chaos engineering styr sin webbläsare hit.

Chaos Monkey är en serie mjukvaror som har olika funktioner, som att testa fördröjning och säkerhet. Oracles motsvarighet till Chaos Monkey heter för övrigt Madbull.

Text: Peter Ardell

För mer information, kontakta Martin Monperrus  på 08 - 790 65 40 eller martin.monperrus@csc.kth.se.