Danish Neo-Latin Literature: digitalisering af Danmarks latinsksprogede kulturarv fra perioden 1482-1600

Projektet vil med en nyudviklet OCR-teknik digitalisere den del af den danske latinsksprogede litteratur, der blev trykt mellem 1482-1600, og efterfølgende gøre teksterne tilgængelige via Det Danske Sprog- og Litteraturselskab (DSL).
Det har hidtil ikke været muligt at OCR-scanne tidlige trykte bøger med de eksisterende hjælpemidler, men dette har ændret sig med OCR4all, der for nyligt er blevet udviklet af en gruppe fra Universität Würzburg med henblik på OCR-scanning af tidlige trykte bøger. Dermed er for første gang nogensinde en large-scale digitalisering af det tidlig moderne bogtryk mulig. Nærværende projekt vil udnytte dette på et omfattende dansk materiale, der er helt central for kendskabet til Dansk kultur i senmiddelalder og renæssance.

Corpus
Projektet sigter på at digitalisere alle latinske tekster trykt i det danske område eller skrevet af danskere mellem 1482 og 1600, med undtagelse af udgaver af klassiske latinske forfattere. Teksterne er registreret i Lauritz Nielsen, Dansk Bibliografi I-II (København 1919, 1931-33, 2. forøgede udg. 1996), og for perioden 1536-1600 i Database of Nordic Neo-Latin Literature, med alle nødvendige metadata. Til det danske område regnes her også Norge, Island, Skånelandene og Slesvig. Dette omfangsrige corpus er for størstedelens vedkommende tilgængeligt som billedfiler i databasen Early European Books. Et fortsættelse af projektet vil omfatte tekster fra 1600-tallet og senere.

Arbejdsproces
Forberedelse af OCR

  • Billedfilerne skaffes fra databaser, hovedsageligt Early European Books. De kan i princippet skaffes fra en hvilken som helst kilde, da der kun behøves sort/hvide scans.
  • Scans bearbejdes med ScanTailor (dobbeltsider deles, rettes op, marginer rettes til)
  • Scans konverteres til png-filer

OCR og efterbehandling:

Software-pakken OCR4all bruges til OCR. Det indebærer:

  1. En ‘rå’ OCR med model-træningsskrifttyper inkluderet i OCR4all.
  2. Produktion af Ground Truth (50 siders tekst rettes per tryk)
  3. Træning af ny modelskrifttype (ressourcekrævende)
  4. OCR med den ny modelskrifttype
  5. Yderligere Ground Truth, om nødvendigt med fokus på specielt problematiske bogstaver og gentagelse af punkterne 3 og 4.

Projektleder: Marianne Pade

Projektet er en del af Semper Ardens projektet Cultural Encounter as a Precondition for European Identity, bevilget af Carlsbergfondet

 

English summary of the project:

Danish Neo-Latin Literature: digitalization of Denmark’s latin-written cultural heritage in the period between 1482-1600

The project will utilize a newly developed OCR technique to digitalize Danish litterature printed between 1482-1600 written in Latin language and subsequently make the texts available through Det Danske Sprog- og Litteraturselskab (The Danish Language and Litterature Company).

The technique is called OCR4all, which is developed by a group of people at Universität Würzberg, which enables large-scale digitalization of early modern litterature. The project will focus on litterature from Danish authors and material from the Danish area (including Norway, Iceland, Scania and Schleswig) which is available as images in the Early European Books database.

The project is led by: Marianne Pade

The project is part of the Semper-Ardens project Cultural Encounter as a Precondition for European Identity, supported by the Carlsberg Foundation.