Performance Monitoring, Analysis, and Real-Time Introspection on Large-Scale Parallel Systems

Tid: To 2020-01-09 kl 10.00

Plats: F3, Lindstedtsvägen 26, Stockholm (English)

Ämnesområde: Datalogi

Respondent: Xavier Aguilar , Beräkningsvetenskap och beräkningsteknik (CST)

Opponent: Professor Jesus Labarta, Barcelona Supercomputing Center

Handledare: Laure Erwin Professor, Skolan för elektroteknik och datavetenskap (EECS); Fürlinger Karl Doctor, Ludwig-Maximilians-Universität München; Lagergren Jens Professor, Skolan för elektroteknik och datavetenskap (EECS)

Abstract

HPC (högpresterande datorer) har idag blivit ett nödvändigt verktyg för stora forskningsprojekt inom olika områden såsom läkemedelsdesign, klimat- modellering mm. Den enorma datorkraften hos HPC-system har dessutom gjort det möjligt för forskare att simulera problem som var otänkbara för en- dast några år sedan. Det finns dock ett problem. Den ökande komplexiteten hos HPC-system medför att utvecklingen av effektiv mjukvara kapabel att ut- nyttja dessa resurser blir utmanande. Användningen av prestandaövervakning och mjukvaruanalys måste därför spela en viktig roll för att avslöja prestand- aproblem i parallella system. Utveckling av prestandaverktyg står dock också inför liknande utmaningar och måste kunna hantera allt växande mängder genererade data.

I denna avhandling föreslår vi en ny modell för prestandakaraktärisering av MPI applikationer för att försöka lösa problemet med stora datamängder. Vår metod använder sig av “Event Flow” grafer för att balansera mellan skal- barheten av profileringsmetoder, dvs prestandadata av aggregerade mätvär- den, med informationen från spårningsmetoder, dvs filer med tidsstämplade händelser. Dessa grafer tillåter oss att koda händelserna och därmed minskar behovet av lagring, vilket leder till utnyttjande av mycket mindre minne och diskutrymme, och slutligen till ökad skalbarhet. Vi demonstrerar även i denna avhandling hur vår “Event Flow” grafmodell kan användas för spårkompri- mering. Dessutom föreslår vi en ny metod som använder “Event Flow” grafer för att automatiskt undersöka strukturen hos MPI-applikationer. Denna kun- skap kan i efterhand användas för att samla in prestandadata på ett smartare sätt och minskar mängden redundanta data som samlas in. Slutligen visar vi att våra grafer kan användas inom andra områden, utöver spårkomprime- ring och automatiskt analys av prestandadata, dvs för att utforska visuella prestandadata.

Förutom ”Event Flow” grafer undersöker vi i denna avhandling även de- signen och användningen av ramverk för introspektion av prestanda. Framtida HPC-system kommer att vara mycket dynamiska miljöer kapabla till extrema nivåer av parallelism, men med en begränsad energikonsumtion, betydande resursfördelning och heterogen hårdvara. Användningen av realtidsdata för att orkestrera exekvering av program i så komplexa och dynamiska miljöer kommer att bli en nödvändighet. Den här avhandlingen presenterar två oli- ka ramverk för introspektion av prestandadata. Dessa ramverk är enkla att använda, ger prestandadata i realtid och kräver få resurser. Vi demonstrerar bland annat hur vårt tillvägagångssätt kan användas för att i realtid minska systemets energikonsumtion.

De metoder som föreslås i denna avhandling har bekräftats på olika stor- skaliga HPC-system med många kärnor såväl som gentemot nutida vetenskap- liga applikationer. Experimenten visar att våra metoder, när det gäller pre- standakarakterisering och introspektion av prestandadata, inte är resurskrä- vande och kan bidra till prestandaövervakning av framtida HPC-system.

urn.kb.se/resolve?urn=urn:nbn:se:kth:diva-264421

Tillhör: Skolan för elektroteknik och datavetenskap (EECS)
Senast ändrad: 2019-12-02