Programming for Data Science

Innehåll visas utifrån dina val

Om du inte hittar någon sida, schemahändelse eller nyhet på din kurswebb kan det bero på att du inte ser den kursomgången/gruppen inom kursen som innehållet tillhör.

Veta mer om din kurswebb

Din kurswebb är sidorna för en kurs du prenumererar på. Du väljer sedan vilka omgångar/grupper inom kursen du vill ha information från. Är du registrerad på en kursomgång sköts prenumeration och val av kursomgäng automatiskt åt dig. Vill du ändra något av detta gör du det under Mina inställningar.

När du är inloggad på din kurswebb ser du:
  • Kursöversikt, nyheter och schema med information som är filtrerat utifrån dina valda omgångar/grupper inom kursen
  • Allmänna sidor för hela kursen
  • Kurswikin som är sidor som alla, lärare och studenter, kan skapa och redigera
  • Sidor som hör till de omgångar/grupper inom kursen du valt eller som valts för dig

Log in to your course web

You are not logged in KTH, so we cannot customize the content.

Intended learning outcomes

The student is expected to be able to on completion of the course:

  • apply methods to import, combine and convert data to appropriate formats for data analysis
  • explain, implement and apply algorithms for supervised and unsupervised machine learning
  • explain, implement and use evaluation methods and performance metrics for supervised and unsupervised machine learning
  • apply methods to visualize and draw conclusions of results of data analysis.

Course main content

  • Syntax and semantics for programming languages that are particularly suited for data science, e.g. Python, Julia.
  • Routines for importing, combining, transforming and selecting data.
  • Algorithms for handling missing values, discretization and dimensionality reduction.
  • Algorithms for supervised machine learning, e.g. naïve Bayes, decision trees, random forests.
  • Algorithms for unsupervised machine learning e.g. k-means clustering.
  • Libraries for data analysis.
  • Evaluation methods and performance metrics.
  • Visualising and analysing results.

Literature

I. Witten, E. Frank, M. Hall and C. Pal, Data Mining: Practical Machine Learning Tools and Techniques (4th ed.), Morgan Kaufmann, 2016 ISBN: 9780128042915. 

J. VanderPlas, Python Data Science Handbook: Essential tools for working with data (1st ed.), O’Reilly Media Inc., 2016 ISBN: 9781491912058. Available online for free here.

See below for reading instructions.

Examination

Links below point to Canvas

Lectures

Links below point to Canvas

Lecture Slides Reading
L1

i) Introduction

ii) Introduction to Python

WFHP 1

L2

i) Introduction to Python
ii) NumPy and pandas

VP 2 & 3

L3

Data Preparation

WFHP 2 & 8

L4

Evaluating Predictive Models

WFHP 5

 

L5 Naı̈ve Bayes and k-Nearest Neighbors WFHP 4.2 & 4.7
L6 Decision Trees and Rules WFHP 4.3, 4.4, 6.1 & 6.2
L7 Combining Models WFHP 12
L8 Visualization VP 4
L9 Libraries VP 5
L10

Unsupervised Learning

Research Topics in Data Science

WFHP 4.8 & 4.5

 

Teachers

No activity in the past month. Go to News feed to see older activity

Feedback News