Methods for rapid phylogenetic inference and copy number variation detection from transcriptomics data
Tid: Fr 2024-12-20 kl 13.00
Plats: F3 (Flodis), Lindstedtsvägen 26 & 28, Stockholm
Videolänk: https://kth-se.zoom.us/j/68990648769
Språk: Engelska
Ämnesområde: Datalogi
Respondent: Semih Kurt , Beräkningsvetenskap och beräkningsteknik (CST), Science for Life Laboratory, SciLifeLab
Opponent: Associate Professor Mohammed El-Kebir, University of Illinois at Urbana-Champaign
Handledare: Professor Jens Lagergren, Beräkningsvetenskap och beräkningsteknik (CST), Science for Life Laboratory, SciLifeLab
QC 20241129
Abstract
Beräkningsbiologi utnyttjar biologiska data och matematisk modellering för att få insikter i biologiska system och deras relationer. Ett nyckelexempel på allmänt använda biologiska data är nukleotidsekvenser, erhållna genom DNA- och RNA-sekvensering. De senaste framstegen inom sekvenseringsteknologier gör det möjligt att erhålla DNA- och RNA-sekvenser på encellsnivå genom snabba, kostnadseffektiva pipelines. Dessa högupplösta data är en möjlighet för forskare att undersöka komplexa biologiska egenskaper och processer som evolutionära samband, utvecklingshistoria, somatiska mutationer, sjukdomsprogression och tumörheterogenitet. Faktorer som tekniskt brus och inneboende biologisk slumpmässighet innebär dock utmaningar när det gäller att extrahera meningsfulla insikter i de tidigare nämnda olika biologiska begreppen. De stora datastorlekarna som är associerade med encellsdatauppsättningar uppvisar ett annat hinder. Därför uppstod ett ökande behov av skalbara och robusta beräkningsmetoder för att fullt ut utnyttja den senaste expansionen av både typer och kvantitet av sekvenseringsdata. I denna avhandling tar vi upp denna växande efterfrågan på avancerade beräkningsmetoder genom att föreslå nya tillvägagångssätt för två nyckeluppgifter inom beräkningsbiologi: fylogenetisk rekonstruktion och slutledning av kopietalsvariation (CNV).
Först visar vi hur blandningskomponenter i variationsautokodare (VAE) samarbetar, anpassar sig gemensamt för att maximera evidensens nedre gräns (ELBO), effektivt täcker den bakre målfördelningen och förbättrar förmågan till latent representation, vilket ger bättre celltypsklassificering på singel- datauppsättningar för celltranskriptomik. För det andra introducerar vi ett VAE-baserat tillvägagångssätt för slutledning av kopienummervariationer från encells transkriptomikdata. Till skillnad från tidigare metoder behöver vår metod inte celltypsspecifika gensignaturer, tumörspecifika markörer eller någon form av tidigare information, men den ger mer exakta uppskattningar av variationer i antal kopior. För det tredje föreslår vi en skalbar och snabb metod för fylogenrekonstruktion med hjälp av en gles avståndsmatris, vilket avsevärt minskar körtiden för stora datamängder. För det fjärde presenterar vi en djupinlärningsbaserad metod för samtidig klonal dekonvolution och slutledning av kopienummervariation från rumslig transkriptomikdata, vilket ger en detaljerad bild av intratumörheterogenitet.