KTH-forskare klassificerar bilder av proteiner med hjälp av artificiell intelligens och dataspel
Bättre beskrivningar av de hundratusentals mikroskopiska bilder av människans celler och proteiner som finns tillgängliga i databasen Human Protein Atlas. Det är ett av resultaten av ett internationellt forskningssamarbete som har letts av KTH. Dessutom har ett antal nya proteiner i den mystiska cellstrukturen som kallas Rods & Rings identifierats. I projektet har man använt sig både av dataspel och av artificiell intelligens för att förbättra klassificeringen av proteiner.
I en artikel i septembernumret av Nature Biotechnology presenterar forskare från KTH två metoder för att klassificera mönster i mikroskopbilder av människans proteiner.
Målet med studien har varit att förbättra annoteringen (definieringen och tolkningen) av människans proteiner som finns tillgängliga i databasen Human Protein Atlas (HPA) .
KTH-forskarna har samarbetat med det schweiziska startuppföretaget Massive Multiplayer Online Science och det isländska spelföretaget CCP Games . Tack vare samarbetet har man kunnat integrera klassificeringen av proteinbilderna som ett medborgarforskningsmoment i EVE Online , ett gigantiskt multiplayer online-spel. Det resulterade i mini-spelet Project
Discovery som spelades av över 300,000 personer på EVE Online och genererade över 33 miljoner klassificeringar av proteinbilder. Det här är första gången som medborgarforskning har implementerats i ett dataspel och det har redan beskrivits som en milstolpe inom medborgarforskningen.
Resultatet av Project Discovery jämfördes med ett system baserat på artificiell intelligens (AI) som forskarna har tagit fram: the Localization Annotation Tool (Loc-CAT). Loc-CAT är den första generaliserbara metoden för att annotera proteiner som finns på flera ställen i cellen (så kallade multilokaliserade proteiner). Det kan fungera över många olika celltyper vilket gör det till ett användbart verktyg för att studera människans celler och dess beteende i framtiden. Trots att AI-verktyget var bättre än Project Discovery-spelarna för de vanliga klasserna av proteiner så var spelarna bättre på att identifiera ovanliga och nya mönster. Genom att kombinera Project Discovery-annoteringar med AI kunde en version av Loc-CAT med bättre prestanda tas fram.
Resultaten från denna studie har lett till förfinade annoteringar i cellatlasen i Human Protein Atlas. Dessutom har ett antal nya proteiner i den mystiska cellstrukturen som kallas Rods & Rings identifierats. Resultaten har nu integrerats i HPA-databasen och kommer utgöra en värdefull resurs för forskare över hela världen som vill förstå proteiner.
– Jag tror att vi kommer se mer integrering av vetenskapliga uppgifter i etablerade dataspel, det är ett attraktivt sätt att komma åt och dra nytta av människors hjärnkapacitet. Dessutom har medborgarforskningsspel som direkt kopplas till modeller för maskininlärning möjlighet att revolutionera analyser i storskaliga forskningsprojekt, säger Emma Lundberg, lektor vid Cellulär och Klinisk proteomik på KTH, som samtidigt vill framföra ett stort tack till alla medborgarforskare som deltagit för både deras arbete och upptäckter.
Trots detta lyckade projekt finns fortfarande mycket utrymme för förbättringar.
– Vi kan därför annonsera Human Protein Atlas 2018 Challenge på Kaggle (en plattform som erbjuder tävlingar inom datavetenskap och maskininlärning) med start 17 september. Det är en öppen bildanalys-utmaning för att klassificera subcellulära proteinmönster i dessa bilder där vinnarna kommer bidra till att hjälpa forskningen inom livsvetenskaperna framåt, säger Emma Lundberg.
Läs artikeln Deep learning is combined with massive-scale citizen science to improve large-scale image classification.
För mer information, kontakta Emma Lundberg: emma.lundberg@scilifelab.se
Håkan Soold