Deponera och publicera data
Det finns många fördelar med att publicera forskningsdata, men det finns också flera faktorer att överväga innan du delar data.
Varför publicera forskningsdata
“… science moves faster in an open world” / Steven Salzberg, chef för Center for Computational Biology, Johns Hopkins University
- Dela data möjliggör återanvändning i andra forskningsprojekt.
- Delning gör det möjligt för andra att bekräfta forskningsresultat, sprida din forskning och göra forskningsprocessen mer transparent.
- Att dela data kan ge erkännande och uppmärksamhet, till exempel genom citeringar och registrerade nedladdningar av dataset.
- Det kan leda till nya samarbetsmöjligheter mellan forskargrupper, både nationellt och internationellt.
- Genom att dela din data i en tillförlitlig databas får du en säker kopia som bevaras på ett tryggt ställe.
Det finns många fördelar med att publicera dina forskningsdata öppet i ett pålitligt digitalt repositorium där din data tas om hand över tid. Ett digitalt repositorium gör både din data sökbar och ser till att datan är tillgänglig för vidare forskning över tid. Även data som inte kan publiceras öppet på grund av etiska och juridiska faktorer kan deponeras till ett digitalt arkiv där andra forskare eller personer som vill granska forskningen kan begära att få tillgång till den data som ligger till grund för forskningens resultat. Att deponera data till ett pålitligt digitalt arkiv är en viktig byggsten för en transparent och reproducerbar forskningspraxis som bedrivs med god kvalitet.
Var och hur kan jag som forskare publicera data?
Den generella rekommendationen är att använda ett högkvalitativt repositorium för att lagra och publicera forskningsdata. För att det ska vara lätt för forskare inom samma fält att hitta och återanvända forskningsdata är ett ämnesspecifikt datarepositorium ett bra alternativ.
För vissa forskningsområden finns pålitliga och högkvalitativa ämnesspecifika datarepositorier där data kan lagras. Du kan leta efter sådana repositorier i registret hos re3data.org och läsa mer om vilka kriterier som gäller för högkvalitativa repositorier för att möta finansiärers krav i rapporten New guide on trusted repositories: Promoting open science and meeting grant requirements . I vissa ämnesområden kräver också tidskrifter att specifika datarepositorier används. Dessa repositorier har vanligtvis riktlinjer för format och dokumentation som är specifika för den aktuella ämnesdomänen. Data kan även publiceras i särskilda datatidskrifter.
Saknas ämnesspecifika repositorier i ditt forskningsområde finns ett par störra generella repositorier som kan användas för öppna data och som säkerställer långtidslagring i minst tio år. KTH erbjuder stöd när det gäller kvalitetsgranskning av databeskrivningar som KTH:s forskare deponerar till KTH Zenodo community och till Svensk nationell datatjänsts repositorium DORIS .
Zenodo kan vara ett bra alternativ för dig som arbetat med öppna data och källkod och inte har datamängder som exempelvis kan kopplas till enskilda individer. Har du däremot arbetat med tabulära data eller kvantitativa forskningsmetoder och samlat in enkätsvar eller intervjuat personer kan SND:s tjänst DORIS vara lämplig.
För andra typer av metodik och digitala objekt, som källkod och maskininlärningsmodeller finns andra typer av tjänster för att dela dessa öppet. En generell rekommendation är att länka mellan olika digitala objekt som skapats i forskningen så att alla digitala objekt som hör till publicerade resultat kan hittas och spridas. Alla tjänster där digitala objekt delas garanterar inte heller att de finns kvar där en längre tid. Det kan orsaka problem ifall någon vill granska din forskning vid senare tillfälle. I repositorier där ett digitalt objekt tilldelas en permanent identifierar som exempelvis DOI, har organisationen bakom repositoriet åtagit sig att arkivera det digitala objektet. Om du vill dokumentera olika digitala objekt du använder i din forskning – använd gärna KTH Data Repository tidigt i forskningsprocessen. Du kan sedan välja vilken data därifrån du vill publicera öppet. För att göra det möjligt att återanvända data i vidare forskning rekommenderas att följa principerna för FAIR (Findable, Accessible, Interoperable, Resuable). Det finns även en rad olika etiska principer som är vägledande beroende på forskningskontexten.
Finansiärers och vetenskapliga förlags krav på publicering av forskningsdata
Många finansiärer och förlag ställer krav på att den data som ligger till grund för publicerade resultat ska tillgängliggöras enligt FAIR-principerna. Här nedan ser du en översikt över vilka krav de större finansiärerna har på öppen tillgång och tillgängliggörande av forskningsdata.
Vissa förlag pekar på att forskningsdatan kan tillgängliggöras via deras egna lösningar eller samarbetspartners. I vissa fall innebär detta antingen en ganska stor tilläggskostnad för författare och i andra fall att data enbart är tillgänglig för andra forskare mot betalning. Vi rekommenderar istället att data-publicering sker via ett fritt tillgängligt datarepositorium som sätter permanenta identifierare på forskningsdata. Du kan hitta en översikt över större förlags krav på tillgängliggörande av forskningsdata i rapporten Kartläggning av förlags riktlinjer för delning av forskningsdata .
KTH Data Repository – för dig som vill dokumentera, arkivera och publicera din data på KTH
KTH Data Repository är en KTH-tjänst du kan använda redan när du börjar samla in och dokumentera data. Där kan du både dokumentera och arkivera din data för att vid lämpligt tillfälle också välja att publicera all eller viss data från ditt forskningsprojekt. Du kan då dokumentera olika versioner av data och källkod för ditt forskningsprojekt redan innan data och resultat publiceras
När du lämnar in ett manuskript för publicering kan olika tidskrifter ha olika riktlinjer för hur data som ligger till grund för resultaten i manuskriptet ska skickas in. Sakkunniga granskare under peer-review processen vill ofta få tillgång till data som ligger till grund för resultaten vid granskning av manuskript. Från KTH Data Repository kan du dela ut en "hemlig länk" till data. När projektet avslutas kan du bedöma om data enbart ska lagras och delas internt eller också publiceras som öppna data. Du kan välja att publicera vissa eller alla dataset för ett forskningsprojekt.
Läs mer om hur du använder KTH Data Repository
Data som publiceras i KTH Data Repository kan få en DOI och kan då sökas upp via externa söktjänster som till exempel Google Dataset Search . KTH-publicerade data kommer snart även att synas på den nationella forskningsdataplattformen researchdata.se och DIGG:s öppna dataportal för svenska myndighetsdata . När data väl har deponerats kan du inte göra ändringar i de filer du laddat upp. Skulle du vilja dokumentera olika versioner av data från olika steg av processning av data kan du däremet skapa olika versioner av data knutna till en och samma datapost.
Är du nyfiken men osäker på om KTH Data Repository är rätt plats för forskningsdata i din kontext?
Testa då gärna vår sandboxmiljö först! Där kan du logga in och testa funktionerna i systemet, ladda upp, beskriva och ladda ner testdata antingen manuellt eller via API. Då kan du testa och bli bekväm med hur det fungerar innan du bestämmer dig för om du vill dokumentera och deponera dina faktiska forskningsdata i skarpt läge. Vill du också testa en tilldelad lagringsyta för många dataset där du själv delar ut behörighet inom en begränsad grupp – ett eget community i sandboxmiljön, kontakta oss så hjälper vi dig med det.
Du kan också kontakta researchdata@kth.se om du vill se en demo eller vill ha ett community med tillhörande lagringsyta i KTH Data Repository för ditt forskningsprojekt, forskningsgrupp eller institution.
Hur gör jag med data som inte kan publiceras öppet?
Hur data ska hanteras bör redan vid insamling ta hänsyn till informationsklassning och finns krav på skydd av konfidentialitet kan sådana datamängder inte publiceras öppet. I vissa fall kan bearbetning resultera i en avkodad datamängd som inte längre behöver skyddas från obehörig åtkomst som därmed kan publiceras. Men i dessa fall är det bra att tänka på risker för exempelvis bakvägsidentifiering. För kvantitativa data från exempelvis intervju- och enkätstudier kan du hitta verktyg för att statistiskt uppskatta risk vid tillgängliggörande av avkodade data hos SND .
Även för skyddsvärda data som inte kan publiceras öppet är det viktigt att dokumentera och arkivera den forskningsdata som ligger till grund för forskningens resultat. Har du använt kvalitativ forskningsmetodik och genomfört intervjuer och enkätstudier där personuppgifter samlats in, så är Svensk nationell datatjänst DORIS ett bra alternativ där du kan välja begränsad åtkomst till data innehållande personuppgifter. För dig inom life science-området kan sekvensdata deponeras i den svenska European Genome Archival-noden FEGA Sweden .
Också i KTH Data Repository kan du välja begränsad åtkomst för olika typer av data med krav på grundläggande skydd av konfidentialitet. Har du däremot data där utökat skydd bedöms föreligga bör du först kontakta säkerhetsavdelningen .