Till innehåll på sidan
Till KTH:s startsida Till KTH:s startsida

Datakällor

Nedan listas de datakällor som för tillfället används i våra tjänster. En datakälla kan vara den ursprungliga platsen där data föds eller där information först digitaliserasts. Det är en källa till information så länge som en process kommer åt och använder den. En datakälla är en facilitet som kan förse brukare med information genom något känt protokoll eller format. Datakällan kan vara stängd, öppen, strukturerad, ostrukturerad, kurerad eller okurerad. Det kan konkret vara till exempel en databas, en platt fil, livemätningar från enheter eller strömmande datatjänster.

Bibliometridatabasen Bibmet 

Bibliometridatabasen på KTH, Bibmet, innehåller publikationsdata från Web of Science och specifikt för KTH data från publikationsdatabasen DiVA, Scopus och Unpaywall. I Bibmet bearbetas och kombineras data, normerade citeringsindikatorer beräknas med och utan självciteringar, adresser granskas och unifieras. Bearbetningen möjliggör avancerade bibliometriska analyser av hög kvalitet. I Bibmet förekommer även klassificering genom klustring av publikationer baserat på citeringslänkar.

Bibmet används internt av bibliometrigruppen, och är den databas som ligger till grund för de bibliometriska analyser man kan få ut i systemet Årlig bibliometrisk uppföljning (ÅBU).

DiVA 

DiVA är KTH:s publikationsdatabas. Den innehåller publikationer producerade av universitetets forskare och studenter. En del metadata från DiVA är även relevant för Bibmet och exporteras därför dit. KTH:s metadata från DiVA levereras dessutom till den nationella publikationsdatabasen Swepub.

Web of Science  

Datakällan Web of Science är en utgivaroberoende referensdatabas med publicerings- och citeringsdata för säker upptäckt, åtkomst och bedömning. Den innehåller bibliometriska citeringar av multidisciplinära områden som täcker olika tidskrifter inom medicin, vetenskap och samhällsvetenskap inklusive humaniora. Databasen används för att fatta mer välgrundade beslut på KTH och ute på institutioner. 

Scopus 

Scopus är en stor databas med täckning inom naturvetenskap, medicin, teknologi, samhällsvetenskap och humaniora. Innehållet i Scopus och Web of Science överlappar till stor del men inte helt. En bibliometrisk analys kommer alltså inte att ge exakt samma resultat i båda databaserna.

HR-data 

Datakällan från HR innehåller data om de anställda på KTH. Det innefattar bland annat information kring organisatorisk tillhörighet, titel och anställningstid. 

UG

KTH:s användardatabas UG innehåller information om forskare och andra användare på KTH. En del av denna information finns tillgänglig via KTH:s Web API:er men via UG är det därutöver möjligt att göra “batch”-uppslag när det finns specifika behov för information som inte går att få ut via KTH:s Web API:er. 

KTH:s Web API:er 

Från KTH Profiles API kan man läsa ut publik data om personer på KTH. Från KTH Directory API kan man läsa ut information om vilka forskare som tillhör en viss organisatorisk enhet. 

R-paket som möjliggör åtkomst till datakällor

Ett antal R-paket har utvecklats som möjliggör åtkomst till data från diverse källor. Däribland paket för att hämta data från KTH:s interna Web API:er, från DiVA-publikationer, från externa slutna datakällor som Scopus och Web of Science, samt från externa öppna källor som OpenAlex, CORDIS, SweCRIS med mera.

Läs mer om R-paket

Dataflöde

Både intern och extern data kombineras i flera av tjänsterna. Relevant data samlas från olika källor i ett mellanlager, så kallade object storage, där “buckets” används för att gruppera dataset som hör ihop. Åtkomst möjliggörs från detta lager via S3-protokollet. För denna lagring används en öppenkällkodskomponent som heter Minio . Där sparas data i format som kan användas i många sammanhang och ger minimal inlåsning till specifika produkter vid användning (exempelvis i format som CSV, parquet med mera). 

Med utgångspunkt i denna samlade datamängd görs därefter bearbetningar i olika syften, i enlighet med de behov och krav som olika tjänster och applikationer har. I bearbetningssteget används antingen mer traditionella databasteknologier, eller olika verktyg från “data science”-verktygslådan såsom R, Python med mera. Ett annat exempel på en öppenkällkodskomponent som används i bearbetningssteget är in-memory-OLAP-databasen “duckdb” som har stöd för nyare format såsom parquet och arrow och dessutom kan ställa snabba frågor även mot data som finns i andra databaser (såsom SQLite och Postgres).  

I presentationssteget används ofta interaktiva webapplikationer  eller interaktiva rapporter