Slimmer zoeken in archieven via nieuwe interface

Onderzoeker Marc Bron ontwikkelt een visuele zoekmachine waarmee de uitkomsten van verschillende zoekopdrachten vergeleken kunnen worden.

Grote hoeveelheden data stromen iedere dag onze archieven binnen: kranten en boeken worden gedigitaliseerd, terwijl videomateriaal rechtstreeks digitaal aangeleverd wordt. Zoekmachinetechnologie wordt dan ook steeds belangrijker. Al het gedigitaliseerde materiaal biedt een schat aan informatie voor onderzoekers in de geesteswetenschappen en de sociale wetenschappen, maar kunnen ze tussen deze zogenaamde ‘big data’ ook vinden wat ze zoeken?

Volgens Marc Bron, promovendus bij het Intelligent Systems Lab Amsterdam (ISLA) aan de Universiteit van Amsterdam, hangt dat ervan af. Van bepaald materiaal weten onderzoekers dat het in het archief zit en met welke zoektermen het terug te vinden is. Maar in het merendeel van de gevallen komen onderzoekers met een onderzoeksvraag naar het archief en moeten zij eerst op zoek gaan naar geschikt materiaal en de inhoud van het archief verkennen.

Een belangrijke moeilijkheid hierbij zit hem in het formuleren van de zoekvraag die aan de zoekmachine gevoerd kan worden. De zoektermen die onderzoekers gebruiken kunnen verschillen van de terminologie die de archivarissen gebruiken voor het beschrijven van het materiaal, terwijl er ongeveer hetzelfde bedoeld wordt. Bijvoorbeeld dat een onderzoeker ‘migrant’ invoert, waar een archivaris ‘vreemdeling’ heeft gebruikt.

Het tweede probleem ontstaat wanneer er materiaal is gevonden. Onderzoekers hebben immers geen mogelijkheid om vast te stellen of zij al het relevante materiaal verzameld hebben of dat er ergens nog iets interessants te vinden is waar zij op dat moment nog geen weet van hebben. Om deze problemen aan te pakken, heeft Bron samen met collega’s binnen ISLA, het Centre for Television in Transition van de Universiteit Utrecht en Beeld & Geluid een exploratieve interface ontwikkeld, MeRDES genaamd (voluit: Media Researchers’ Data Exploration Suite). Hiermee kunnen uitkomsten van verschillende zoekopdrachten in rijke archieven zoals dat van Beeld & Geluid met elkaar vergeleken worden.

Door het aantal programma’s dat voor ieder van de zoekopdrachten relevant is te visualiseren, krijgen onderzoekers een indruk van de hoeveelheid informatie die omtrent verschillende aspecten van een onderwerp beschikbaar is. Op deze manier kan bijvoorbeeld de opkomst van het gebruik van de term ‘migrant’ in archiefmateriaal vergeleken worden met het gebruik van de term ‘vreemdeling’. De hoeveelheid beschikbaar materiaal over een onderwerp en hoe het zich verhoudt tot andere onderwerpen kunnen een grote invloed hebben op de aanpak van het onderzoek en de uiteindelijke vragen die kunnen worden beantwoord.

Om de interface te testen, hebben Marc Bron en postdoc Jasmijn Van Gorp (UU) een gebruikersstudie uitgevoerd met veertig mediawetenschappers. Bron heeft de uitkomsten van hun onderzoek in augustus gepresenteerd op de internationale conferentie van de Special Interest Group on Information Retrieval (SIGIR) in Portland. Een demo van de interface is beschikbaar op zookma.science.uva.nl/merdesdemo. Brons onderzoek wordt uitgevoerd binnen het NWO-project BRIDGE (Building Rich Links to Enable Television History Research), onderdeel van het CATCH (Continuous Access to Cultural Heritage) programma.

Deze bijdrage komt uit IP nr. 9 / 2012. Het gehele nummer kun je hier lezen