KB onderzoekskroniek: Gaat de computer straks trefwoorden toekennen?

Automatisch metadata toekennen aan publicaties is hot. De almaar groter wordende berg publicaties dwingt ons om het beschrijfproces ervan te ondersteunen met slimme technieken.

Door: Martijn Kleppe

In de mediasector zie je al verschillende voorbeelden van automatisch metadata toekennen aan publicaties; hierbij wordt veelal samengewerkt met commerciële partijen. RTL Nederland gebruikt bijvoorbeeld beeld- en spraakherkenning van Microsoft en Google om de inhoud van tv-programma’s slim te analyseren en zo hun aanbevelingsdienst te verbeteren. En NBD Biblion verkent samen met Bookarang de mogelijkheden om sneller en meer gestandaardiseerd aanschaf- en catalogusinformatie te maken met behulp van kunstmatige intelligentie. Een nadeel van deze aanpak is dat je als instelling niet altijd weet hoe de algoritmes werken of welke thesauri gebruikt worden, terwijl je wel zeker wilt zijn van de kwaliteit die je levert.

Annif

Om het beschrijfproces van publicaties te optimaliseren heeft de Finse Nationale Bibliotheek daarom zelf de open source-tool Annif gebouwd. Het principe is relatief eenvoudig: jarenlang hebben hun catalogiseerders handmatig trefwoorden toegekend aan publicaties. Deze publicaties hebben zij inmiddels als full-text beschikbaar. Met behulp van machine learning kun je nu een algoritme bouwen dat per trefwoord op zoek gaat naar kenmerken in de tekst. Vervolgens kun je dit algoritme loslaten op een nieuwe tekst waar nog geen trefwoorden aan hangen. De computer kijkt welke kenmerken in de tekst voorkomen én overeenkomen met eerder vastgestelde kenmerken van een trefwoord. Op basis daarvan kan het een suggestie doen van mogelijke trefwoorden.

Genre Classifier

Deze aanpak lijkt sterk op een onderzoek dat we een tijdje terug gedaan hebben bij de Koninklijke Bibliotheek. Samen met onderzoeker Frank Harbers van de Rijksuniversiteit Groningen hebben we journalistieke genres automatisch toegekend aan historische krantenartikelen. In een eerder onderzoeksproject had Harbers handmatig vastgesteld of een artikel een interview, nieuwsbericht of column was. Omdat we bij de KB die artikelen digitaal beschikbaar hebben, konden we een algoritme bouwen dat de kenmerken van dit soort genres opzocht, om vervolgens andere artikelen te classificeren. In de eenvoudige online demo van de Genre Classifer in het KB Lab kun je de tool proberen door er een tekst van een nieuwsbericht in te plakken en te zien welk genre het volgens de computer is.

Foto achterflap

De Finse tool Annif heeft een soortgelijke demo online staan. Daarnaast zit de kracht van Annif in nog twee punten. Allereerst is het mogelijk om je eigen instellingsthesaurus als uitgangspunt te nemen, waardoor veel winst te behalen is in het beschrijven van publicaties. Maar vooral de nieuwste optie is mooi: je kunt een foto maken van de achterkant van een boek, waarna de flaptekst direct geanalyseerd wordt en je suggesties krijgt van mogelijke trefwoorden uit de Finse thesaurus.

Betekent dit dat catalogiseerders voortaan boeken beschrijven met een camera? Vast niet. Maar het laat wel zien dat het beschrijfproces de komende jaren gaat veranderen door te experimenteren met dit soort nieuwe technieken.

Martijn Kleppe is hoofd Onderzoek van de Koninklijke Bibliotheek. Met een Onderzoeksgroep verkent hij momenteel de mogelijkheden voor (semi-)automatische metadatacreatie.

Deze bijdrage komt uit IP nr. 8 / 2018. Het gehele nummer kun je hier lezen; de Smart Humanity-special hier.