Bron voor historische tekstcollecties: Delpher: van bèta naar beter

In november 2014 bestond Delpher één jaar. Via deze website zijn miljoenen historische boeken, kranten en tijdschriften full-text doorzoekbaar. In de verbeterde versie van de dienst – die sinds november online staat – is de vormgeving aangepakt, zijn verschillende gebruikerswensen vervuld en werden nieuwe functionaliteiten toegevoegd. Bovendien is de site niet langer een bèta-versie. Een terugblik en een kijkje in de toekomst.

Door: Maaike Napolitano

Enkele jaren geleden sloegen de universiteitsbibliotheken van Amsterdam, Groningen, Leiden en Utrecht, het Meertens Instituut en de Koninklijke Bibliotheek de handen ineen om het versnipperde informatieaanbod aan gedigitaliseerde historische tekstcollecties samen te voegen en via één website doorzoekbaar te maken. Waar je voorheen sites als earlydutchbooksonline.nl en tijdschriften.kb.nl elk afzonderlijk moest doorzoeken, is er sinds november 2013 één integrale website, Delpher. Aanvankelijk werd de dienst gepresenteerd als bèta-versie omdat de website nog volop in ontwikkeling was, maar sinds november 2014 is Delpher beschikbaar als volwaardige dienst.

Historische tekstcollecties

Delpher is de grootste bron van gedigitaliseerde historische tekstcollecties van de zeventiende tot en met de twintigste eeuw in Nederland. In tegenstelling tot een zoektocht via Google, waarbij de resultaten worden beïnvloed door eerdere zoekopdrachten, reclame en de manier waarop websites zijn opgebouwd, worden zoekresultaten in Delpher alleen bepaald door het voorkomen van de gebruikte zoekterm in de tekst. De website biedt toegang tot teksten die afkomstig zijn van erfgoedinstellingen, zoals universiteiten, bibliotheken, musea en archieven. Alle collecties zijn bovendien full-text (op woordniveau) doorzoekbaar. Op dit moment bevat Delpher ruim 90.000 boeken, 1 miljoen Nederlandse kranten, 1,5 miljoen pagina’s uit Nederlandse tijdschriften en 1,5 miljoen ANP-nieuwsberichten. De komende jaren zal het aanbod blijven toenemen. Zo komen alle boeken, kranten en tijdschriften die in het kader van Metamorfoze (het nationale programma voor behoud van het papieren erfgoed) zijn gedigitaliseerd, er uiteindelijk in terecht. Daarnaast bevat Delpher ongeveer 80.000 boeken die de KB in samenwerking met Google heeft gedigitaliseerd. In dit project zijn 160.000 exemplaren gedigitaliseerd, die op den duur allemaal online worden geplaatst.

Lastige keuzes

Tijdens de ontwikkeling van Delpher moesten er voortdurend keuzes gemaakt worden. Zo werkte de website af en toe erg traag. Nadat was gebleken dat het direct tonen van het zoekwoord in de resultaten erg veel capaciteit kostte, is ervoor gekozen om tekst en plaatjes op een andere manier te laden. De gebruiker krijgt de tekst nu pas te zien als hij met de muis over het zoekresultaat gaat of het aanklikt. Deze situatie is niet ideaal, maar hierdoor werkt de website wel weer snel en zijn de prestaties een stuk stabieler geworden.

Ook vragen gebruikers regelmatig of de kwaliteit van de scans of OCR verbeterd kan worden. Natuurlijk willen ook wij zowel kwaliteit als kwantiteit verbeteren, maar binnen de beschikbare middelen moeten we nu eenmaal keuzes maken. Uit gebruikersonderzoek blijkt nog steeds dat wanneer klanten de keus voor kwaliteit of kwantiteit krijgen voorgelegd, de meerderheid liever meer materiaal online ziet, dan de huidige hoeveelheid materiaal in een betere kwaliteit.

Samenwerking

Delpher is ontwikkeld door de Koninklijke Bibliotheek in samenwerking met de eerder genoemde universiteitsbibliotheken en het Meertens Instituut. Tijdens de beginperiode heeft een externe klankbordgroep met experts uit het wetenschappelijke onderzoeksveld het ontwikkelteam regelmatig van input voorzien. Daarnaast zou Delpher niet mogelijk zijn geweest zonder de tientallen contentpartners die hun collecties erin aanbieden.

Voor adviezen over de doorontwikkeling is er naast gebruikersfeedback ook een adviesraad. Op die manier wordt geprobeerd om de wensen en suggesties uit het onderzoeksveld zoveel mogelijk mee te nemen.

Veranderingen

Mede op basis van opmerkingen en ideeen van gebruikers is Delpher flink onder handen genomen. De website is met name gebruiksvriendelijker geworden; Delpher isnu bijvoorbeeld ook goed te gebruiken op tablet en smartphone.

De meest in het oog springende verandering is de centrale zoekbalk waarmee je direct in een bepaalde materiaalsoort, zoals boeken of kranten, kunt zoeken. Verder is het zoeken zelf verbeterd, onder andere door het mogelijk maken van Booleaans zoeken. Bij Booleaans zoeken worden woorden als ‘and’ en ‘or’ gebruikt om de zoekopdracht te verfijnen en daarmee de kans op het vinden van relevante resultaten te vergroten.

Ook nieuw is de mogelijkheid om te zoeken met historische spellingvarianten, ontwikkeld door het Instituut voor Nederlandse Lexicologie (INL). Hiermee worden suggesties gegeven voor historische spellingvarianten op het gebruikte zoekwoord. Wie bijvoorbeeld zoekt op het woord ‘koninklijke’, krijgt veertien varianten te zien van hoe dit woord in het verleden werd geschreven. Vervolgens kan de gebruiker zelf selecteren welke spellingvarianten worden meegenomen in de zoekopdracht.

Toekomst

Delpher zal steeds worden doorontwikkeld en met collecties worden uitgebreid. Feedback van gebruikers via onder meer gebruikersonderzoek, e-mail en sociale media is daarbij onmisbaar. Op dit moment onderzoekt het ontwikkelteam hoe het ‘uitgebreid zoeken’ nog beter kan worden gemaakt. Daarbij worden de internationale ontwikkelingen op dit terrein op de voet gevolgd. Denk bijvoorbeeld aan het toevoegen van named entities, waardoor Delpher kan herkennen dat een woord als ‘Maas’ een familienaam kan zijn, maar bijvoorbeeld ook een rivier. Dit zal het zoeken naar veelvoorkomende familienamen een stuk vergemakkelijken.


Technische uitdagingen

Om gedigitaliseerde publicaties op woordniveau te kunnen doorzoeken, moet de computer ‘weten’ welke woorden er op de gescande pagina’s staan. Met behulp van speciale software worden de scans omgezet in tekst die voor computers leesbaar is. Zonder OCR (Optical Character Recognition) zou een gedigitaliseerde pagina van een boek of tijdschrift niets anders zijn dan een plaatje van de tekst. Hoe ouder het materiaal, hoe lastiger het voor dergelijke software is om de letters in de tekst goed te herkennen. Er moet bijvoorbeeld rekening worden gehouden met oude spelling, complexe paginaopmaak, lastige lettertypes, verkleuring van het papier en vervaging van de inkt. De OCR in Delpher is nog lang niet perfect, maar er wordt aan gewerkt om de software te verbeteren en de teksten nog betrouwbaarder te maken. Tegelijkertijd zijn er ook initiatieven om ge-OCR’de teksten handmatig te corrigeren, zoals in de ‘kranteneditor’, een crowdsourcingproject van het Meertens Instituut en de KB. In dit project worden zeventiende-eeuwse kranten die zijn gezet in gotisch schrift, met de hulp van vrijwilligers omgezet naar Romeins schrift.


Gebruikersreactie

 ‘Prachtig om zoveel materiaal beschikbaar te hebben, maar het is zo jammer dat de informatiestructuur achter de digitale content zo beperkt is. Je weet nooit helemaal zeker in wat voor vijver je nu aan het vissen bent en het blijft ook een beetje gokken hoe representatief je vangst is.’ Anonieme gebruikersreactie, december 2014


Gebruikersreactie

‘Het onvolprezen digitale krantenbestand van Delpher is een goudmijn voor wetenschappelijk onderzoek. Hierdoor ben ik niet alleen op het spoor gekomen van brieven van Couperus, maar kon ik ook met behulp van overlijdensadvertenties en in memoria personen beter thuisbrengen en voor mij onbekende familierelaties achterhalen. Ik durf te zeggen dat een deel daarvan zonder Delpher niet had kunnen worden gevonden.’

Dr. H.T.M. van Vliet


Maaike Napolitano is dienstcoördinator van Delpher en werkzaam bij de Koninklijke Bibliotheek.

Deze bijdrage komt uit IP nr. 1 / 2015. Het gehele nummer kun je hier lezen