Hoppa till huvudinnehållet
Till KTH:s startsida Till KTH:s startsida

Ämnesområde 4: Numerik för data science

"Data science" är ett interdisciplinärt fält där man använder vetenskapliga metoder, tekniker och algoritmer för att extrahera information från data. Data kan komma från mätningar av signaler och bilder från fysikaliska processer, t.ex. ljudupptagning eller satellitfoton, eller från nätverk, grafer eller flöden, t.ex. sociala nätverk eller olika typer av samhällsvetenskapliga samband. Om du väljer detta ämne kan du använda du numeriska algoritmer och metoder för att behandla och analysera problem som innehåller mycket data, "numerics for data science".

Preliminära förslag:

  • Klustringsanalys av data från Östersjön: Dyk djupt i ekologisk data från Östersjön! Med data insamlad i linje med EU:s Data Collection Framework (DCF) av Havs- och Vattenmyndigheten över flera decennier, finns inom detta projekt möjlighet att utforska och analysera mönster och förändringar i ekosystemet över tid. I detta projekt kommer du att använda klustringsalgoritmer för att granska och identifiera mönster i den omfattande datamängden. Specifikt ska spektrala klustringsmetoder användas som bygger på egenvärdesberäkningar byggda från distansmatriser. Målet är att identifiera och förstå långsiktiga förändringar, trender och anomalier, till exempel i fiskpopulationerna i Östersjön. Projektet kan ses om en del av ett större forskningsprojekt där man vill få djupare förståelse av Östersjöns ekosystem och dess förändringar över tid, av stor vikt inom klimatforskning. Handledning görs genom via samarbete med forskare inom på numerisk analys och David Gilljam, forskare på SLU Aqua.

    Handledare: Elias Jarlebring

  • Kärna-periferi detektering av data. Detta projekt handlar om dataanalys, och speciellt hur man kan klassificera delmängder av datan som periferi och kärna. För små datamängder kan det vara enkelt att identifiera periferi (t.ex Stockholms tunnelbana är de yttre stationerna periferi och ungefär allt inom tullarna är kärnan) men i större datamängder är detta svårt och måste göras algoritmiskt med en matematisk beskrivning av problemet. Till exempel är motsvarande kärna-periferi-detektering mycket svårare för datamängden "Internet 2006" som motsvarar strukturen och kopplingarna av servrar/routrar på internet 2006. Utgångspunkten för detta projekt är forskningsartikeln "A nonlinear spectral method for core-periphery detection", SIAM journal of mathematical data science, 2019. Till en början kan datamängder i artikeln användas, och om möjligt kan studenter finna datamängder själva.

Handledare: Elias Jarlebring

  • SIR-epidemimodeller och osäkerhetskvantifiering

    Avsikten med detta projekt är att studera SIR-modellen för smittospriding och analysera dess pålitlighet med hjälp av osäkerhetskvantifiering. Projektet handlar om att beskriva problemets teoretiska bakgrund och numeriskt lösa problem för enkla modellfall. SIR-modellen är ett exempel på en generell frågeställning att avgöra dataanpassade dynamiska systems osäkerhet.

    Projektbeskrivning

    SIR-modell är ett system med tre ickelinjära ordinära differentialekvationer som beskriver antalet mottagliga, smittade och tillfrisknade över tiden. Detta dynamiska system beror på parametrar som beskriverövergånghastigheten mellan de tre tillstånden. Dessa parametrar behöver skattas från uppmätta data. Projektet handlar om hur observerade data används och hur noggrannheten i prognoser kan analyseras.

    Projekt innehåller matematisk modellering, matematisk analys och programmering.

Handledare: Anders Szepessy

  • Numerical methods for energy production. Energy and in particular efficient and clean production of renewable energy sources is important for a sustainable world. Energy extraction of oil, gas and heat from geothermal energy are all described by subsurface flow and transport. Fluids and gases in the subsurface flow through porous media that in general are formed in a structured way, in sedimentary layers, in channels and in fractures. The different layers may be more or less difficult for fluids to flow through, and fluids tend to follow the path of least resistance. The ease with which fluids flow in a medium is modeled as material parameters in the mathematical equations describing the problem. The material properties can vary by orders of magnitude in space and this makes construction of numerical methods challenging. In addition, standard numerical methods do not preserve the physics properly. 

    In this project you can take different directions: 

    • improve different aspects of existing numerical methods for subsurface flow and transport: this could be numerical properties such as accuracy and efficiency as well as preserving the physical properties of the underlying mathematical model. You would work on a model problem and write your own code. 

    • Use the open-source software MATLAB Reservoir Simulation Toolbox (MRST) to simulate more complex subsurface problems for energy extraction. This could for instance be simulation of geothermal energy extraction in fractured reservoirs. 

Handledare: Anna Nissen

  • Accurate numerical methods for wave propagation problems. Everywhere around us we can observe or experience phenomena described by propagating waves. Music and sound are composed by mechanical waves. Electromagnetic waves are used in health care both for diagnostics and therapeutic purposes. Seismic waves are electromagnetic waves that travel through the Earth’s layers after an earthquake.  

    Waves can travel for long times and over distances that far exceeds their wavelengths. High order accurate finite difference methods are often efficient for propagating waves: high order methods tend to better capture dispersion relations (wave speeds) compared to low order methods and finite difference methods can be implemented to run efficiently in parallel codes. However, the behavior of the numerical errors can be inconsistent with the formal accuracy of the numerical method. 

    In this project we use techniques involving Laplace transform and Fourier transform to analyze the accuracy of finite difference methods. In particular, we consider problems where the numerical solutions in regions with different grid spacings are coupled using interpolation. With a better understanding of the behavior of numerical errors, more accurate methods can be constructed. 

Handledare: Anna Nissen

  • Fler projekt läggs till vid behov.