Netarkivet som datakilde

Hvad er Netarkivet?

Det Kgl. Bibliotek varetager opgaven, foreskrevet i pligtafleveringsloven fra 2005, om indsamling og bevaring af den danske del af internettet, gennem Netarkivet. Dette indebærer indsamling af alle offentlige danske domæner (.dk), men også andre domæner, som er henvender sig til et dansk publikum.

Grundlæggende anvendes fire forskellige metoder til indsamling af internettet: Tværsnitshøstning, selektiv høstning, begivenhedshøstning og specialhøstninger. Disse divergerer mht. dækning og tidshorisont, således, at det det danske internet bliver indsamlet både i bredden og i dybden. De indsamlede sider, bliver lagt i arkivet med data og metadata, og dette kan anvendes til forskningsprojekter på Kulturarvsclusteret.

For et eksempel på, hvordan man kan anvende Netarkivet til at forskning gennem Kulturarvsclusteret anbefales Niels Brüggers forskningsartikel: ”Big data experiments with the archived Web: Methodological reflections on studying the development of a nation’s Web."

Adgang til Netarkivet

Da Netarkivet kan indeholde følsomme personoplysninger er det en forudsætning for adgangstilladelse, at man er en forsker tilknyttet en dansk forskningsinstitution. Derfor er det udelukkende forskere og Ph.D. –studerende, som kan få online adgang til Netarkivet. Dette kræver dog en formel ansøgererklæring, som opfylder retningslinjerne.

I ansøgererklæringen skal formålet med adgangen beskrives, samt hvor længe projektet strækker sig over. Den udfyldte ansøgning sendes til kontakt@kb.dk, gerne med ”Ansøgning til brug af Netarkivet” i emnefeltet. Det forventes at adgang vil kunne blive givet 2-3 dage efter modtagelse af ansøgningen.

Når adgangen er givet kan man anvende browserapplikation kaldet Wayback, der muliggør, at man kan læse websider som de har set ud på tværs af de førnævnte høstninger.

Netarkivet som data

For at forstå, hvordan man i praksis kan anvende data fra Netarkivet til forskning, er det relevant at forstå, hvordan det danske internet indsamles. Programmet NetarchiveSuite, som er udviklet af Det Kgl. Bibliotek i samarbejde med andre europæiske nationalbiblioteker, anvendes til de forskelige høstningsopgaver. Gennem NetarchiveSuite, anvendes forskellige programmer for at indsamle data og metadata omkring de indsamlede objekter heriblandt anvendes programmet Heretrix. Dette program skriver en masse teknisk metadata under høstningen, hvilket kan bruges til at yderligere analysearbejde. Et af disse metadata er crawl.log, som man kan læse mere om her.

Datatyper

Indsamlingen af objekter på den danske del af internettet, kaster altså en række af forskellige data og metadata af sig. Et eksempel af de datatyper, der indsamles, kan ses fx ved høstningen af forsiden af URL’en dr.dk. Når denne side høstes, resulterer det i en række filer:

  • Hovedsiden, der ligger på URL, fx index.html
  • Mediefiler, der er på den side fx some-famous-person-photo.png.

Derudover udtrækkes alle udgående links på siden, som så også indsamles, hvilket sikrer at hele domænet, samt sammenhængende domæner bliver høstet.

Logfiler

Systemet, der indsamler URL'er, skriver også til en logfil. I denne logfil, skrives alle de URL'er der skal hentes sammen med metadata.

ETL

Når der skal arbejdes kvantitativt med dokumenter fra Netarkivet, er man nødt til at transformere dokumenterne over på en dataform. Dette gøres gennem processen: Extract, Transform, and Load.

Kendte udfordringer