Udforsk de digitale kulturarvsmaterialer

Baggrund

DeiC (Danish e-Infrastructure Cooperation) og Det Kgl. Bibliotek stiller et kørende High Performance Computer anlæg til rådighed på Det Kgl. Bibliotek i Aarhus. Kulturarvsclusterets formål er at give forskere, primært indenfor de humanistiske og samfundsvidenskabelige områder, mulighed for at arbejde kvantitativt med big data.

Hvad kan man?

Kulturarvsclusteret benytter moderne teknologier inden for data science, fx

  • Apache Hadoop og Spark cluster teknologier
  • GPU baseret Machine-Learning med Tensorflow
  • Browser baserede applikationer til data analyse: RStudio og Jupyter Notebooks

Der er derved for første gang mulighed for at lave kvantitative forskningsprojekter i den digitale danske kulturarv – fx radio- og tv-udsendelser, arkiverede hjemmesider og historiske aviser.

Tilgængelige samlinger for forskningsprojekterne

Det Kgl. Bibliotek er ansvarlig for indsamling og langtidsbevaring af store dele af den danske kulturarv, herunder også den digitale. Denne digitale kulturarv er opdelt i utallige samlinger, hver med egne egenskaber, formater og muligheder. Eksempler på samlinger, der nu stilles til rådighed for forskere, er radio/tv, Netarkivet og avissamlingen. Alle samlinger er dog beskyttede af lovgivning hvilket for fx avissamlingen gør at kun aviser uden for ophavsret kan udleveres til forskning.

Radio-/tv-samlingen indeholder mere end 1 mio. timers tv-udsendelser og mere end 1,5 mio. timers radioudsendelser udsendt på danske kanaler fra 1980’erne til i dag. Samlingens data gøres tilgængelige som videofiler. Samlingen indeholder også store mængder metadata såsom programtitler, udsendelsestidspunkter og undertekster alt efter hvilken epoke, indsamlingen stammer fra. Se mere på mediestream.dk.

Netarkivet indeholder mere end 800TB data svarende til mere end 25 mia. objekter hentet fra den danske del af internettet fra 2005 til i dag. Også dette arkiv indeholder både data og metadata, og begge dele stilles til rådighed for forskningsprojekter. Du kan læses yderligere på netarkivet.dk.

Den digitale avissamling indeholder mere end 35 mio. avissider fra 1700-tallet indtil i dag. Alle disse sider ligger som billedfiler sammen med en stor mængde metadata og optisk tegngenkendelsesdata (OCR). Dog kan der p.t. kun gives adgang til aviser udenfor ophavsret.

Ud over disse store samlinger råder Det Kgl. Bibliotek også over mange andre mindre specialsamlinger.

Alt i alt stilles mere end 4PB, svarende til cirka 4.000.000 gigabyte, til rådighed for nye og eksisterende forskningsprojekter.

Platform

Kulturarvsclusteret skal understøtte nye områder inden for især computerassisteret humanistisk forskning. Derfor blev det besluttet at designe et anlæg, der vil gøre det nemt at udføre veletablerede analyser uden at gå på kompromis ift. avancerede og skræddersyede metoder.

Kulturarvsclusteret stiller Hortonworks Data Platform til rådighed for forskningsprojekterne. Denne platform er udviklet inden for rammerne af Open Data Platform Initiative (ODPi), hvorpå der er installeret nogle mere brugervenlige og webbaserede grænseflader.

Open Data Platform er et nyt initiativ fra de største Hadoop distributører og indeholder en lang række af de gængse Hadoop teknologier. Der kan læses om ODPi på odpi.org, hvorfra der også kan downloades en virtuel fuldt funktionsdygtig OPDi server, som kan køre på en gængs desktop pc, så man i et lille setup kan prøve teknikkerne.

Som frontends til Kulturarvsclusteret tilbydes blandt andet Jupyter Notebooks og RStudio. Begge disse værktøjer giver browserbaseret adgang til at lave store analyser og visualiseringer af store datamængder.

Pilotprojekter

I løbet af 2019 vil de planlagte pilotprojekter udnytte anlæggets nye beregningsfaciliteter. I projekterne stiller Det Kgl. Bibliotek i samarbejde med DeiC eScience kompetencecenter-faciliteter og oplæring i systemet gratis til rådighed for forskerne. Løbende vil DeiC og Det Kgl. Bibliotek tilbyde yderligere fuldt finansierede pilotprojekter gennem åbne interessetilkendegivelser (se øverst her på siden).

Senere vil der også blive mulighed for at købe regnetid og konsulentbistand efter en transparent prismodel, som vil blive udviklet i forbindelse med de første pilotprojekter.

Yderligere information

Kommende projektkald vil blive distribueret gennem nationale kanaler inden for alle relevante områder. Du kan læse mere om interessetilkendegivelser her.