Till innehåll på sidan
Till KTH:s startsida Till KTH:s startsida

Computational methods for analysis of spatial trancsriptomics data

An exploration of the spatial gene expression landscape

Tid: Fr 2022-03-18 kl 10.00

Plats: Air&Fire, Tomtebodavägen 23A, Solna

Videolänk: https://kth-se.zoom.us/j/61241436735

Språk: Engelska

Ämnesområde: Bioteknologi

Respondent: Alma Andersson , Genteknologi, Lundeberg Lab

Opponent: Dr Omer Bayraktar,

Handledare: Professor Joakim Lundeberg, Genteknologi, Science for Life Laboratory, SciLifeLab

Exportera till kalender

QC 2022-02-22

Abstract

Transkriptomiktekniker, både i form av bulk, single cell/nuclei och spatiala metoder har tillåtit oss att utvidga vår kunskap om de biologiska system omkring likväl som inom oss. Under det senaste decenniet så har mängden innovationer inom området ökat på ett lavinartat sätt, och en uppsjö teknologiska avancemang har gjorts. Resultatet av detta är flertalet nya experimentella metoder. År 2009 så sågs isolering och karaktärisering av en enda cells transkriptom som ett stort framsteg, tio år senare (2019) så var studier med kartläggning av transkriptomet hos var och en av hundratusentals celler närmast osensationellt. Fältet som benämns spatial transcriptomics (sv. spatial transkriptomik) har genomgått en likvärdigt transformativ fas; det har gått från att kämpa med att uppskatta uttrycket av ett fåtal gener samtidigt till att kunna producera en spatial bild av samtliga gener i transkriptomet. Inte oväntat så närmar vi oss en inflektionspunkt där analys, istället för produktion av data, är den begränsande faktorn. Med standardiserade kommersiella produkter så kan högkvalitativ spatial transcriptomics data effektivt genereras i stor skala. Således har frågor kring analys av data börjat ersätta dem som berör dess framställning. Denna avhandling ämnar behandla vissa av dessa nya frågor; de fem artiklarna som den innefattar presenterar nya metoder för analys av spatial transcriptomics data samt exempel på deras applikationsområden. Avhandlingen ger även en överskådlig beskrivning av existerande metoder för produktion och analys av spatial transcriptomics data samt innehåller ett avsnitt om datamodellering.

I Artikel I så presenteras en probabilistisk modell för integration av single cell/nuclei och spatial transcriptomics data. Metoden möjliggör en dekomposering av de blandade signaler som är karaktäristiska för data från vissa spatial transcriptomics tekniker. Detta gör det möjligt att beskriva observationer utifrån deras sammansättning av biologiskt relevanta celltyper, definierade i single cell/nuclei data, istället för enbart genuttryck. Modellen implementerades även i kod som mjukvara och lanserades, med öppen källkod samt full tillgänglighet för allmänheten, under namnet stereoscope. Samma riktlinjer kring öppenhet och transparens gäller för all mjukvara och kod som är associerad med denna avhandling. Metoden, stereoscope, har använts i flertalet studier varav Artikel II är ett exempel. I detta arbete så undersökte vi det spatiala expressionslandskapet hos HER2- positiva bröstcancerpatienter. Genom att integra spatial och single cell data identifierade vi flertalet intressanta kolokaliseringssignaler. Från dessa signaler kunde vi definiera en signatur för tertiära lymfstrukturer samt se indikationer på en trevägsinteraktion mellan en interferon I signal, ett T-cell subset, och ett makrofag subset. Arbetet innefattade även ytterligare dataanalys, där vi nyttjade icke-vägledd (eng. unsupervised) klustring av genexpressionsdatan. De resulterande klustrena, efter annotering, stämde väl överens med morfologin och annoteringar som tillhandahållits från en patolog. Sammantaget så bekräftar dessa resultat värdet i att använda spatial transcriptomics för “digital patologi”. Slutligen, från genexpressionsklustren så kunde även “kärnsignaturer” identifieras, vilka representerar generella expressionsprofiler som delas av flertalet patienter.

 I Artikel III så presenterar vi ytterligare en analysmetod, sepal, vilken är utvecklad för att identifiera gener med distinkta spatiala mönster, ofta refererade till som “spatialt variabla gener” (eng. spatially variable genes). Metoden använder först Ficks andra lag för att simulera diffusion av transkript i vävnaden, samtidigt som tiden till konvergens (ett spatialt homogent tillstånd) mäts. Sedan rankas varje gen baserat på dess “diffusionstid”. Metoden bygger på antagandet att gener som uppvisar spatiala mönster generellt tar längre tid att konvergera jämfört med gener utan struktur.

Artikel IV redogör för en studie av muslevern genom användandet av spatial transcriptomics. Vi använde stereoscope med syfte att integrera single cell data även i detta projekt, men upplevde ett behov av mer skräddarsydda metoder för analys av den specifika vävnaden. Således introducerade vi två nya analysmetoder, en avsedd för predicering av venidentitet, den andra för att representera expressionsdatan på ett mer informativt sätt. För att predicera venidentiteter så skapade vi sammansatta och spatialt viktade genexpressionsprofiler baserat på observationer från respektive vens närliggande område. Därefter tränade vi en logistisk klassificerare med syfte att kunna identifiera huruvida en ven tillhörde klassen “centralven” eller “portalven” givet dess sammansatta genexpressionsprofil. Efter att modellen tränats så kunde den användas för att tillskriva oannoterade eller svårannoterade vener en av de två nämnda identiteterna. I den andra metoden så förflyttar vi tvådimensionell spatial transcriptomics data till en mer informativ endimensionell representation, detta genom att behandla genexpressionsuttrycket som en funktion av avståndet till en observations närmaste venstruktur.

I det sista arbetet, Artikel V, så vidareutvecklar vi idéen om att förflytta data till en mer informativ eller användbar representation. Mer exakt så presenterar vi en metod, eggplant, som tillåter användaren att projicera data från flertalet prover eller experiment till ett gemensamt koordinatsystem (eng. common coordinate framework, kort CCF). Genom att förflytta information till ett CCF så kan spatiala signaler jämföras mellan olika tillstånd och tidpunkter, vilket är nödvändigt för flertalet värdefulla sekundäranalyser. Exempel på sådana analyser i vår studie är: spatiotemporal modellering av ett syntetiskt system, och “spatial aritmetik” applicerad på experimentellt inhämtad vävnadsdata. Med en växande mängd av spatial transcriptomics data och ambitiösa internationella initiativ som “the Human Cell Atlas”, så anser vi att liknande metoder är essentiella för att kunna nyttja datan till dess fulla potential

urn.kb.se/resolve?urn=urn:nbn:se:kth:diva-308942