Door Michel de Gruijter
Wat als we alle foto’s die ooit door persfotografen zijn gemaakt automatisch kunnen verbinden met alle gepubliceerde foto’s in kranten, tijdschriften en boeken? Dan komt er informatie samen die we als mens in geen eeuw handmatig kunnen samenbrengen. Een eerste stap naar massale beeldherkenning is inmiddels gezet met krant-en-fotos.nl.
De KB bezit kilometers aan publicaties in haar magazijnen. Veel daarvan is inmiddels digitaal ontsloten en kan wereldwijd worden geraadpleegd via internet. We blijven bezig om die digitale collecties uit onze eigen magazijnen en die van andere instellingen zichtbaar en bruikbaar te maken via platforms als Delpher, DBNL en Het Geheugen. Het gaat daarbij niet alleen om het op internet zetten van scans, leesbare tekst en plaatjes, maar ook om het goed vindbaar maken en het verbinden van allerlei gegevens die te maken hebben met de publicaties. Zo staat op Delpher de krant Nieuwsblad van het Noorden. In deze krant zitten honderdduizenden foto’s, maar bij elk artikel staat maar een enkele foto terwijl de fotograaf een hele reportage heeft geschoten. Die reportages zijn in Delpher niet terug te vinden.
Groninger Archieven en het Noord-Hollands Archief proberen, net als de KB, hun collecties zichtbaar te maken. Zij bezitten bijvoorbeeld alle reportages van Persfotobureau D. van der Veen en Fotopersbureau De Boer. De foto’s en metadata zijn te vinden in hun beeldbanken, en gebruikers kunnen daarin al heerlijk grasduinen, maar een link met de kranten waarin een deel van de foto’s is gepubliceerd, bestond nog niet. Dat is overigens ook niet vreemd: het zou jaren kosten om die links met de hand aan te brengen.
Algoritme ontwikkeld
Afgelopen halfjaar hebben Groninger Archieven, Noord-Hollands Archief en KB samengewerkt met Picturae en Sioux Technologies om een slimmere manier te vinden – met het project Krant en Foto’s (krant-en-fotos.nl) als resultaat. Sioux heeft daarvoor een algoritme ontwikkeld dat pers- en krantenfoto’s met elkaar verbindt. De basis hiervan is een diep convolutienetwerk getraind op miljoenen foto’s. Eenvoudig gezegd: de pixels van de krantenfoto’s worden automatisch vergeleken met de persfoto’s, waarbij de drie krantenfoto’s met de meeste overeenkomsten worden gezien als de meest waarschijnlijke treffers. Zo’n half miljoen persfoto’s en een kwart miljoen krantenfoto’s zijn op deze manier verbonden.
Beeldbank
Die verbindingen vormen de basis voor een demonstrator die Picturae vervolgens heeft gebouwd. De gebruiker krijgt op krant-en-fotos.nl een beeldbank voorgeschoteld met alle foto’s uit het project en kan daarin zoeken op persfoto’s. Een zoekvraag levert dan bijvoorbeeld een persfoto op van een auto-ongeluk en drie krantenartikelen waarin dezelfde auto op een foto is te zien. Daarnaast kan de gebruiker doorklikken naar de hele fotoreportage waarin hij of zij de auto vanuit elke hoek kan bekijken. Acht gebruikers hebben deze nieuwe website vervolgens getest. Sinds kort staat dezeonline.
Tastbare resultaten
Het project heeft tastbare resultaten opgeleverd in de vorm van een algoritme, een demonstrator en ervaringen van gebruikers (zie de video bij dit artikel). Net zo belangrijk zijn de lessen die we hebben geleerd en in een whitepaper hebben opgenomen. We hopen dat deze zullen landen in de erfgoedsector en dat professionals een duik zullen nemen in de beeldbank. Krant en Foto’s heeft bewezen dat het mogelijk is om met kunstmatige intelligentie in een grote dataset foto’s aan elkaar te koppelen. Het kan dienen als voorbeeld voor andere instellingen om hun beeldcollecties te gaan ontsluiten (het project is ook opgenomen als use case van de werkgroep Cultuur en Media van de Nederlandse AI Coalitie). Het zou mooi zijn als dit project de eerste stap blijkt te zijn naar grootschalige verbinding van fotocollecties.
De broncode voor het verbinden van foto’s op basis van beeldherkenning is open source beschikbaar onder Apache 2.0-licentie via Github.
Michel de Gruijter is adviseur AI & Digital Scholarship bij KB, nationale bibliotheek.
Deze bijdrage komt uit het digitale magazine IP #3/2022. Klik op de onderstaande button om het hele nummer te lezen.