Scalable Analysis of Large Datasets in Life Sciences

Tid: Ti 2019-12-03 kl 10.00

Plats: Kollegiesalen, Brinellvägen 8, 114 28, Stockholm (English)

Ämnesområde: Datalogi

Respondent: Laeeq Ahmed , Beräkningsvetenskap och beräkningsteknik (CST)

Opponent: Research Director Vincent Breton, French National Center for Scientific Research

Handledare: Professor Erwin Laure, SeRC - Swedish e-Science Research Centre, Parallelldatorcentrum, PDC; Associate Professor Ola Spjuth, Pharmaceutical Bioinformatics, Uppsala University; Ake Edlund, Telia Company

Abstract

Vi upplever just nu en flodvåg av data inom både vetenskaplig forskning och färetagsdriven utveckling. Detta gäller framfärallt inom livsvetenskap på grund av utveckling av bättre instrument och framsteg inom informationsteknologin under de senaste åren. Det finns dock betydande utmaningar med hanteringen av sådana datamängder som sträcker sig från praktisk hantering av de stora datavolymerna till färståelse av betydelsen och de praktiska implikationerna av dessa data.

I den här avhandlingen presenterar jag metoder fär att snabbt och effektivt hantera, behandla, analysera och visualisera stora biovetenskapliga datamängder. Stärre delen av arbetet är fokuserat på att tillämpa de senaste Big Data ramverken fär att på så sätt skapa effektiva verktyg fär virtuell screening, vilket är en metod som används fär att säka igenom stora mängder kemiska strukturer fär läkemedelsutvecklings. Vidare presenterar jag en metod fär analys av stora mängder elektroencefalografidata (EEG) i realtid, vilken är en av de huvudsakliga metoderna fär att mäta elektrisk hjärnaktivitet.

Färst utvärderar jag lämpligheten att med Spark (ett parallellt ramverk fär stora datamängder) genomfära parallell ligand-baserad virtuell screening. Jag applicerar metoden fär att klassificera samlingar med molekyler med hjälp av färtränade modeller fär att selektera de aktiva molekylerna. Jag demonstrerar även en strategi fär att skapa molnanpassade fläden fär strukturbaserad virtuell screening. Den huvudsakliga färdelen med den här strategin är äkad produktivitet och häg hastighet i analysen. I det här arbetet visar jag att Spark kan användas fär virtuell screening och att det även i allmänhet är en lämplig läsning fär parallell analys av stora mängder data. Dessutom visar jag genom ett exempel att Big Data analys kan vara värdefull vid arbete med biovetenskapliga data.

I den andra delen av mitt arbete presenterar jag en metod som ytterligare minskar tiden fär den strukturbaserade virtuella screening genom användning av maskininlärning och en iterativ modelleringsstrategi baserad på Conformal Prediction. Syftet är att endast docka de molekyler som har en hägre sannolikhet att binda till ett målprotein, vid säkning efter molekyler som potentiellt kan användas som läkemedelskandidater. Med användning av maskininlärningsmodellerna från detta arbete har jag byggt en webbtjänst fär att färutsäga en profil av en molekyls olika interaktioner med olika målprotein. Dessa prediktioner kan användas fär att indikera sekundära interaktioner i tidiga skeden av läkemedelsutvecklingen.

I den tredje delen presenterar jag metoder fär att detektera anfall med långtidsEEG - den här metoden fungerar i realtid genom att ta pågående mätningar som datasträmmar. Metoden mäter utmaningarna med att fatta beslut i realtid att lagra stora mängder data i datorns minne och uppdatera färutsägelsemodellen ny data som produceras i snabb takt. Den resulterande algoritmen klassificerar inte bara anfall i realtid, den lär sig också gränsvärdet i realtid. Jag presenterar också ett nytt mått, “topp-k amplitudmått” fär att klassificera vilka delar of data som motsvarar anfall. Utäver detta hjälper måttet till att minska mängden data som behäver behandlas i efterfäljande steg.

urn.kb.se/resolve?urn=urn:nbn:se:kth:diva-261683

Tillhör: Skolan för elektroteknik och datavetenskap (EECS)
Senast ändrad: 2019-10-23