Het ontcijferen van handschriften in archieven is vaak een flinke uitdaging. Om gescande historische documenten digitaal leesbaar en doorzoekbaar te maken ontwikkelde het KNAW Humanities Cluster de transcriptiesoftware Loghi. Deze is per direct open source beschikbaar. Het Nationaal Archief en het KNAW Humanities Cluster blijven Loghi verder doorontwikkelen.
Het ontcijferen van oude handschriften, zeventiende-eeuwse of veel modernere, zoals uit de periode van de Tweede Wereldoorlog, is tijdrovend en vaak moeilijk. Transcriptiesoftware maakt dit veel eenvoudiger door er een digitale tekst van te maken. Tegelijkertijd biedt die transcriptie ook nieuwe onderzoeksmogelijkheden omdat gedigitaliseerde tekst doorzoekbaar is, maar dan moet de software wel betrouwbaar zijn.
De transcriptiesoftware Loghi, zo bleek uit testen, geeft tot wel 96% correcte transcripties van handgeschreven, getypte en gedrukte teksten. Hierdoor is ze geschikt voor erfgoedorganisaties die historische, slecht leesbare teksten beschikbaar en doorzoekbaar willen maken voor bezoekers en onderzoekers. De software is open source beschikbaar via GitHub.
Twee stappen
Loghi is in staat om uiteenlopende teksten te ontcijferen, of iets nu handgeschreven, getypt of gedrukt is. De software doet dat in twee stappen. Eerst stelt ze vast op welke lijn een regel loopt, de zogenaamde baseline. Op die manier weet de software welke zinnen bij elkaar horen. Daarna zet Loghi het plaatje van de tekst om naar digitale tekst. Door deze twee stappen kan ze niet alleen rekening houden met aantekeningen in de kantlijn of tussen regels, maar ook met teksten die verticaal zijn geschreven in bijvoorbeeld tabellen. De software herkent al die verschillende vormen van tekst en geeft de digitale weergave daarvan in de juiste context weer.
Officiële samenwerking
Het KNAW Humanities Cluster en het Nationaal Archief blijven Loghi verder ontwikkelen om gedigitaliseerde collecties van het Nationaal Archief leesbaar en doorzoekbaar te maken. Dat is nu vastgelegd in een officiële samenwerking, waarin ook het Nationaal Archief een ontwikkelaar gaat aannemen. ‘We hebben al 50 miljoen documenten gescand en zullen de komende jaren nog eens 50 miljoen pagina’s digitaliseren’, aldus het Nationaal Archief. In die jaren komen de getranscribeerde teksten online beschikbaar.