ID2221 Data-intensiv databehandling 7,5 hp

Data-Intensive Computing

  • Utbildningsnivå

    Avancerad nivå
  • Huvudområde

    Datalogi och datateknik
  • Betygsskala

    A, B, C, D, E, FX, F

Kurstillfällen/kursomgångar

HT19 för programstuderande

HT18 för programstuderande

HT18 Doktorand för fristående studerande

  • Perioder

    HT18 P1 (7,5 hp)

  • Anmälningskod

    10148

  • Kursen startar

    2018-08-27

  • Kursen slutar

    2018-10-26

  • Undervisningsspråk

    Engelska

  • Studielokalisering

    Campus Kista

  • Undervisningstid

    Dagtid

  • Undervisningsform

    Normal

  • Antal platser *

    1 - 1

    *) Kurstillfället kan komma att ställas in om antalet antagna understiger minimiantalet platser. Vid fler sökande än platser kommer urval att ske.

  • Kursansvarig

    Amir Payberah <payberah@kth.se>

    Sarunas Girdzijauskas <sarunasg@kth.se>

  • Lärare

    Amir Payberah <payberah@kth.se>

  • Målgrupp

    För doktorander på KTH

Lärandemål

Kursen kompletterar kurserna i distribuerade system med ett fokus på bearbetning, lagring och analys av massiva datamängder. Den förbereder studenterna på examensarbetsprojekt för masterexamen, och för forskarutbildning inom området data-intensive computing systems.
Huvudsyftet med denna kurs är att erbjuda studenten en solid grund för att förstå storskaliga distribuerade system som används för att lagra och bearbeta massiva datamängder.

Mer specifikt kommer studenter efter avslutad kurs att kunna

  • förklara arkitekturen och de egenskaper hos datorsystem som behövs för att lagra, utsöka och indexera stora datavolymer
  • beskriva olika beräkningsmodeller för att bearbeta stora datamängder för statiska data (batchbearbetning) och för data i rörelse (stream processing)
  • använda olika beräkningssystem för design och implementation av icke-triviala analysmetoder på massiva data
  • förklara olika modeller för att schemalägga och allokera resurser för beräkningsuppgifter på stora datorkluster
  • förklara avvägningarna som görs vid design av effektiva algoritmer för att bearbeta stora datamängder i en distribuerad beräkning.

Kursens huvudsakliga innehåll

Ämnen:

  • Distribuerade filsystem
  • “No-SQL”-databaser
  • Skalbara meddelandesystem
  • Exekveringsmaskiner för Big Data: Map-Reduce, Spark
  • Högnivå-frågor och interaktiv bearbetning: Hive och Spark SQL
  • Stream processing
  • Graph processing
  • Skalbar maskininlärning
  • Resurshantering.

Behörighet

Rekommenderade förkunskaper

Grundkunskaper inom distribuerade system och programmeringsmodeller, programmeringsspråk (Scala, Java, Python).

Litteratur

Examination

  • LAB1 - Programmeringsuppgifter, 3,0, betygsskala: P, F
  • TEN1 - Tentamen, 4,5, betygsskala: A, B, C, D, E, FX, F

Skriftlig tentamen. Laborationsuppgifter.

Ges av

EECS/Datavetenskap

Examinator

Amir Payberah <payberah@kth.se>

Versionsinformation

Kursplan gäller från och med VT2019.
Examinationsinformation gäller från och med VT2019.