ID3019 Avancerad kurs i data-intensiv databehandling 7,5 hp

Advanced course in Data-Intensive Computing

Kursen är en läskurs på forskarnivå som täcker forskningsarbeten från de senaste åren inom området Data-intensiv databehandling (s.k. "Data Intensive Comuputing"). Varje deltagare skall finna egna relevanta forskningsartiklar, läsa och analysera dessas bidrag, ge en presentation av materialet och aktivt bidra till gruppdiskussionerna, samt även skriva en kort rapport om artiklarna.

  • Utbildningsnivå

    Forskarnivå
  • Huvudområde

  • Betygsskala

    P, F

Information för forskarstuderande om när kursen ges

On a yearly basis during the fall semester (period 1)

Lärandemål

Kursen kompletterar kurserna i distribuerade system med ett fokus på bearbetning, lagring och analys av massiva datamängder. Den förbereder studenterna på  forskarutbildning inom området data-intensive computing systems.
Huvudsyftet med denna kurs är att erbjuda studenten en solid grund för att förstå storskaliga distribuerade system som används för att lagra och bearbeta massiva datamängder.
Mer specifikt kommer studenter efter avslutad kurs att kunna
• förklara arkitekturen och de egenskaper hos datorsystem som behövs för att lagra, utsöka och indexera stora datavolymer
• beskriva olika beräkningsmodeller för att bearbeta stora datamängder för statiska data (batchbearbetning) och för data i rörelse (stream processing)
• använda olika beräkningssystem för design och implementation av  icke-triviala analysmetoder på massiva data
• förklara olika modeller för att schemalägga och allokera resurser för beräkningsuppgifter på stora datorkluster
• förklara avvägningarna som görs vid design av effektiva algoritmer för att bearbeta stora datamängder i en distribuerad beräkning.

Kursens huvudsakliga innehåll

Ämnen:
• Distribuerade filsystem
• “No-SQL”-databaser
• Skalbara meddelandesystem
• Exekveringsmaskiner för Big Data: Map-Reduce, Spark
• Högnivå-frågor och interaktiv bearbetning: Hive och Spark SQL
• Stream processing
• Graph processing
• Skalbar maskininlärning
• Resurshantering.

Kursupplägg

Kursen är organiserad som en läskurs. Varje student väljer ett antal artiklar och för varje artikel skall studenten göra följande:
* noggrannt läsa och analysera artikeln.
* muntligt presentera artikelns innehåll, inkluderande metod och bidrag, för de övriga kursdeltagarna och kursens exainator. Presentationen inklusive en diskussion bör ta ungefär en timme.
* skriva en kritik av artikeln som täcker speciellt: en sammanfattning av dess bidrag, metod, signifikans, teknisk och experimentell kvalitet, och presentationskvalitet.
Förutom att presentera fyra artiklar vardera, skall studenterna läsa några av de artiklar som getts till de övriga deltagarna, delta i deras presentationer och akivt bidra till diskussionen om deras artiklar.

Behörighet

Inskriven som forskarstuderande.

Rekommenderade förkunskaper

Rekommenderade förkunskaper: Grundkunskaper inom distribuerade system och programmeringsmodeller, programmeringsspråk (Scala, Java, Python).

Litteratur

Latest papers in the area of Data intensive Computing from high-quality international venues.

Examination

  • EXA1 - Examination, 7,5, betygsskala: P, F

P/F

Krav för slutbetyg

Kursen betygsätts med skalan P/F (godkänd/icke godkänd), baserat på en godkänd presentation, levererandet av en vetenskapligt sund rapport och identifieringen av lämpliga artiklar för läslistan. Dessförutan måste studenten delta i minst 75% av kursens seminarier

Ges av

EECS/Programvaruteknik och datorsystem

Examinator

Sarunas Girdzijauskas <sarunasg@kth.se>

Versionsinformation

Kursplan gäller från och med HT2017.
Examinationsinformation gäller från och med VT2019.