Door Marjo Bakker en Cindy Lammers
Bijna tweehonderd bezoekers namen vorige maand deel aan de VOGIN-IP-lezing, het gezamenlijke evenement van Stichting VOGIN en vakblad IP over zoeken, vinden en vindbaar maken van informatie en data. De tiende editie dit keer, waar verbinden en netwerken – van data en mensen – zich als een centraal thema aftekenden. De acht lezingen in vogelvlucht.
Nog niet eens een jaar zit er tussen de huidige en vorige editie, en toch biedt de VOGIN-IP-lezing 2022, op 11 mei in de Openbare Bibliotheek Amsterdam (OBA), weer veel om uit te kiezen. Een dag vol lezingen en workshops, ‘gesandwicht’ tussen twee keynotes aan het begin en eind van de dag. Hoewel de informatieprofessional natuurlijk niet zijn of haar hand omdraait voor het verwerken van informatie, zet de eerste keynote, in het Engels, inclusief wiskundige vergelijkingen, meteen de minds op scherp.
Wie: Andrew Yates
Wat: assistent-professor bij het Information Retrieval Lab van de Universiteit van Amsterdam, waar hij zich richt op het ontwikkelen van content-based neural ranking methods
# verbeter je zoekproces met neural methods
Information retrieval (IR) op een ad-hoc-manier, ofwel: ‘Google something’ – we doen het allemaal en het werkt perfect, zegt Andrew Yates. Je geeft een zoekopdracht en krijgt een lijst met documenten die vervolgens dankzij een text ranking method in een zekere volgorde aan je worden gepresenteerd. Voegen we het woord neural toe, als in neural information retrieval (NIR), dan hebben we het over ‘een deep learning-methode die de manier waarop text ranking wordt uitgevoerd opnieuw heeft vormgegeven door het tekstbegrip te verbeteren’.
Het is text ranking-plus, volgens Yates, met het ‘soft matching van woorden’ als belangrijk verbeterpunt ten opzichte van de bestaande methodes. ‘Neural methods vervangen exacte matching door semantische matching. Het woord “bank” bijvoorbeeld kan verschillende betekenissen hebben, maar een neurale methode kan in combinatie met andere woorden zoeken vanuit de juist betekenis.’
The good, the bad and the ugly
Yates is enthousiast over de neurale methodes; ze vergroten de zoekkwaliteit aanzienlijk, zo blijkt uit (eigen) onderzoek. Het belangrijkste ingrediënt daarbij is: putting words in context. Bijkomend voordeel is dat zero-shot ranking werkt, stelt Yates. ‘Als Apple morgen de iDevice zou introduceren, is het meteen op te zoeken.’ Dat zijn punten die hij ‘the good’ noemt. Wat ‘the bad’ betreft gaat het niet zozeer om ‘slecht’, maar om de nuance. Zo is de neurale methode goed, maar zijn de andere methodes niet per se onbruikbaar. ‘Dat hangt bijvoorbeeld af van welke zoekopdracht je wilt doen.’ De ‘ugly’ punten die hij aanstipt zijn dan wellicht belangrijker: dat er moet worden gewaakt voor bias en shortcuts in het systeem. Daar ligt nog wat denkwerk voor Yates en collega’s.
> Wie wil bijblijven op NIR-vlak, kan duiken in het recent verschenen boek Pretrained Transformers for Text Ranking: BERT and Beyond, waarvan Yates coauteur is. Of volg de maandelijkse podcast Neural IR Talks van Yates en Sergi Castella.
Wie: Brecht Castel
Wat: historicus, journalist en factchecker bij Knack
# zeg HALT tegen desinformatie
Iedereen kan zijn voordeel doen met OSINT (Open Source INTelligence), aldus Brecht Castel. De nadruk ligt nu vaak op journalistiek gebruik, maar kennis van hoe je publieke digitale bronnen kunt inzetten voor onderzoek is ook handig voor bijvoorbeeld de politie. Je denkt bij OSINT al gauw aan handige tools, maar het gaat ook om een OSINT mindsetwaarin kritisch bronnenonderzoek, samenwerken met lokale journalisten en burgers, creativiteit en een Sherlock Holmes zijn vooropstaan. Op Twitter stuurt Castel via de hashtag #howtoOSINT oproepen uit om hem te helpen bij het factchecken.
Slimme Belg op sandalen
De ‘slimme Belg op sandalen’, zoals Castel over zichzelf zegt, leert het VOGIN-IP-publiek hoe je OSINT kunt inzetten om desinformatie een HALT toe te roepen. HALT staat voor: Ho!, eerst even kijken voor je iets doorstuurt; Analyseer de bron; Lokaliseer betere berichtgeving; Traceer de originele bron. Indrukwekkende voorbeelden over onder andere de oorlog in Oekraïne volgen. Zo gebruikt Castel voor de verificatie van beelden uit de oorlog aldaar vaak Yandex, de Russische Google Image. Hij gaat ook na wat reguliere media met journalisten ter plaatse, zoals de BBC, over een gebeurtenis melden en vergelijkt dat met het te factchecken beeld. Klinkt misschien als een open deur, makkelijk en logisch, maar HALT wordt toch vaak vergeten, is Castels ervaring.
> In IP #3 van dit jaar stond een interview met Brecht Castel over dit onderwerp. Je kunt het artikel hier lezen.
Wie: Frank van Harmelen
Wat: hoogleraar Knowledge Representation & Reasoning aan de Vrije Universiteit Amsterdam; wetenschappelijk directeur van het Hybrid Intelligence Centre, een onderzoeksproject naar AI-systemen die met mensen samenwerken in plaats van ze te vervangen
# van de droom van het semantic web naar de realiteit van linked open data
Al twee decennia wordt gesproken over (en gewerkt aan) een semantic web: een verrijking van het world wide web waarop niet alleen mensen informatie uitwisselen, maar ook computers. Tim Berners-Lee, uitvinder van het internet, had ook die droom om data beter aan elkaar te koppelen. ‘Nu zijn het vooral nog aparte doosjes, de koppeling doen we zelf, een mental copy-paste’, zegt Harmelen. Kan dat niet beter?
Om tot een gekoppeld web te komen zijn vier zaken nodig, weet hij: geef alle ‘dingen’ een naam; leg relaties tussen al deze dingen (data als een netwerk); zorg dat alle namen URL’s zijn (zie het Rijksmuseum: ieder schilderij heeft een eigen webadres); voeg semantiek toe, ofwel: vul de blobs in.
Moderne grondslag voor informatie-uitwisseling
Je hoort de term na al die jaren nog niet vaak voorbijkomen, maar het semantic web wordt al wel gebruikt, weet Harmelen. Door Google en Bing bijvoorbeeld. ‘Stel, je zoekt in Google op “Utrecht”, dan verschijnt er rechts van de zoekresultaten een korte samenvatting; een knowledge graph die Google aan het opbouwen is.’ Hij noemt nog meer voorbeelden van gebruikers: de EU, overheden, nationale bibliotheken, bedrijven … De droom van het semantic web is wel degelijk dagelijkse praktijk geworden, aldus Harmelen: in de vorm van linked open data, de moderne grondslag voor informatie-uitwisseling tussen wetenschappers onderling, tussen bedrijven en consumenten, en tussen overheden en burgers.
> Meer informatie vind je op het Platform Linked Data Nederland (PLDN).
Wie: Enno Meijers
Wat: domeinmanager NDE-Bruikbaar en adviseur afdeling Onderzoek bij de KB, de nationale bibliotheek
# het Termennetwerk als katalysator voor beter vindbaar erfgoed
Hoe kun je erfgoeddata beter vindbaar maken? Enno Meijers houdt een pleidooi om dit niet aan zoekmachines over te laten, maar om dit als informatieprofessionals zelf serieus ter hand te nemen door te werken met (linked data) terminologiebronnen bij de bron. Door gebruik van gestandaardiseerde (linked data) termen kan informatie beter met elkaar worden verbonden. ‘Als iedereen bovendien “netjes in schema.org zou werken”, zou je als je bijvoorbeeld zoekt naar kinderboekenschrijver Wim Hofman niet ook links naar de Wim Hof-methode moeten vinden.’
Zoekmachine op terminologiebronnen
In de erfgoedwereld worden collecties met behulp van verschillende terminologiebronnen beschreven en vindbaar gemaakt, legt Meijers uit. Het Netwerk Digitaal Erfgoed (NDE) heeft die vocabulaires samengebracht in het Termennetwerk, zodat informatieprofessionals makkelijker bij gestandaardiseerde termen voor een persoon of onderwerp komen. Het Termennetwerk is een zoekmachine op de terminologiebronnen op basis van SKOS (Simple Knowledge Organization System). Doordat het Termennetwerk inmiddels in veel collectiebeheersystemen is geïntegreerd (helaas nog niet in de bibliotheeksystemen van OCLC, red.), wordt de identifier (URI) van de gestandaardiseerde term direct opgenomen in het lokale collectieregistratiesysteem, vindt de verbinding meteen plaats en is optimale vindbaarheid gerealiseerd.
> Meer achtergrond over het Termennetwerk vind je hier.
Wie: Cynthia Liem
Wat: universitair hoofddocent Informatica aan de TU Delft, uitvoerend musicus (klassiek piano)
# het toeslagenschandaal digitaal geanalyseerd
In een voorproefje op haar bijdrage aan de VOGIN-IP-lezing interviewde IP haar al over dit actuele onderwerp. Cynthia Liem kwam als informaticus midden in de toeslagenaffaire terecht omdat Trouw haar had gevraagd naar de algoritmische kant van het schandaal te kijken. Daarvoor mocht zij als eerste technische expert in de Wob-documenten duiken, vertelt ze. ‘Een heel complexe materie.’ Met veel zwartgelakte informatie, ook dat. De wortel van het probleem zit in de Bulgarenfraude in 2010, zegt Liem. ‘Die leidde tot een roep om betere opsporing van fraudeurs en hardere handhaving. Tegelijk heerste er een groot optimisme over big data in die tijd.’
Er werd een systeem opgetuigd: data scientists maakten een scorecard die werd gebruikt om het risico van nieuwe dossiers in te schatten op basis van allerlei vage en oneigenlijke indicatoren. ‘Dit systeem bewust saboteren of per ongeluk een tikfout maken deed er niet toe.’ Er waren dertigduizend dossiers verzameld, van diverse bronnen en kwaliteit, en deze werden als goed of fout beoordeeld; daarvan kreeg ruim 90 procent onterecht het stempel van fraudeur.
Human in the loop
Algoritmisch en systemisch zat er een en ander fout, maar ook organisatorisch, benadrukt Liem. Zo was er was een ‘human in the loop’, een ambtenaar, die alleen de uitkomst van de risicoscore kon zien en niet hoe die tot stand was gekomen. Veelal was die ambtenaar ook lager opgeleid dan de data scientist. Verder werkte de cultuur bij de Belastingdienst niet bepaald mee (‘we gaan boeven vangen’). ‘Dus bleven de ambtenaren braaf het hoogste risico checken, en zo ontstond er een feedbackloop.’
De schuld? ‘Die ligt overal’, zegt Liem. ‘Nu zie je vooral terughoudendheid richting machine learning en datagedreven beslissingen. Dat is jammer. Wil je zo’n affaire voorkomen, dan moet je jezelf enkele vragen stellen: waarom willen we zo’n systeem? Wie helpen we, wie schaden we? Hoe houden we overzicht over het totale proces? Hoe kunnen we technische en niet-technische partijen constructief laten schakelen? De IP’er kan hierin ook een belangrijke rol spelen.’
Wie: Merel Geerlings en Ivo Zandhuis
Wat: respectievelijk projectleider Linked Data en consultant Cultural Heritage & ICT bij het Stadsarchief Amsterdam
# makkelijker digitale archieven vinden via Records in Contexts
Het Stadsarchief Amsterdam maakt als een van de eerste archiefinstellingen gebruik van Records in Contexts (RiC), de nieuwe beschrijvingsstandaard voor archieven. Beide sprekers zijn enthousiast over de nieuwe standaard, die veel beter dan op de oude manier digitale archieven kan beschrijven en vindbaar maken. Records in Contexts werkt op basis van linked data. Zoals tijdens voorgaande lezingen al is uitgelegd, worden daarbij ‘dingen’ gedefinieerd en relaties tussen die dingen vastgelegd. Alle dingen krijgen bovendien een unieke identifier in de vorm van een webadres. Deze wie, wat, wanneer metadata werden in de oude beschrijvingen niet altijd allemaal vastgelegd; nu wel. Archieven worden daardoor en door de vastgelegde relaties beter online vindbaar. Omdat de data in een netwerk – oftewel context – worden gepresenteerd in plaats van in een hiërarchische structuur zoals gebruikelijk bij archieven, kunnen de gebruikers makkelijker associatief zoeken op losse onderdelen uit dat netwerk.
Het Stadsarchief Amsterdam heeft in een Blauwdruk en Roadmap Linked Data vastgelegd welke bestaande externe terminologiebronnen zij gebruiken (Wikidata, RKDartists, Nederlandse Thesaurus Auteursnamen, Adamlink) en welke interne vocabulaires zij kunnen toevoegen aan de wereldwijde data (Amsterdamse personen en locaties). Moeten de bezoekers van het Stadsarchief Amsterdam nu nog zelf per collectie hun zoekterm intikken, straks is dat verleden tijd en kan iedereen direct door alles zoeken – bij het Stadsarchief of daarbuiten.
> Op de website van het Stadsarchief Amsterdam vind je in de Blog Bronnen in Bytes een tiendelige serie over het Records in Contexts-project.
> github.com/stadsarchief-amsterdam/rico-examples
Wie: Paul Groth
Wat: professor Algorithmic Data Science aan de Universiteit van Amsterdam, waar hij leiding geeft aan het INtelligent Data Engineering Lab (INDElab)
# hoe maak ik mijn data herbruikbaar?
Paul Roth is een makkelijke spreker die met humor een enigszins zakelijk onderwerp leuk kan overbrengen, zo blijkt. Data zijn overal in je organisatie, begint hij. De hamvraag is wat je als dataprovider kunt doen om deze data (eenvoudiger) herbruikbaar te maken – dit ten behoeve van onderzoek en onderwijs of om nieuwe ideeën op te doen. Daarbij struikel je over de aanbevelingen, adviezen en richtlijnen. Zoals FAIR, maar er is veel meer, wellicht té veel, vindt hij. ‘Op 5 april 2021 waren er 140 policies te lezen op fairsharing.org. We hebben veertig papers gereviewd en daarbij 39 features of datasets geturfd die hergebruik van data mogelijk maken.’ Hij noemt vervolgens een hele lijst op van wat je kunt doen om jouw data open te stellen. ‘I’m tired.’
Datacommunity bouwen
Waar begin je? Hoe prioriteer je? ‘We hebben van Github met zijn 1,5 miljoen datasets een casestudy gemaakt. Daaruit hebben we enkele tips gedestilleerd: maak een korte tekstuele samenvatting bij de dataset; zet een readme file erbij voor meer informatie en links; maak de filegrootte van de dataset hanteerbaar zodat de gebruiker deze eenvoudig kan downloaden; zorg ervoor dat de dataset te openen is via een standaard configuratie bij een bibliotheek, zoals Pandas. En: weet wie je mogelijke gebruikers zijn. ‘Wat we ook elke keer merken is dat data social zijn: mensen hebben het erover. Wat helpt voor hergebruik is mensen er bewust over laten praten, dus een datacommunity eromheen bouwen.’
Wie: Rana Klein en Geert-Jan Strengholt
Wat: respectievelijk AI developer bij Beeld en Geluid en creative director en conceptontwikkelaar bij VPRO Innovatie & Digitale Media en VPRO MediaLab
# experimenteren met AI om bewegend beeld te ontsluiten
De dag sluit af met een spetterende presentatie over het Archief van de Toekomst, dat VPRO Tegenlicht en VPRO Medialab ontwikkelden in samenwerking met Beeld en Geluid. In het online Archief van de Toekomst zijn de 555 afleveringen van VPRO Tegenlicht op nieuwe manieren beschikbaar en doorzoekbaar gemaakt voor het publiek. Op de website kun je via thema’s en een tijdlijn zoeken naar specifieke fragmenten, citaten en losse shots. Tegelijkertijd is het Archief van de Toekomst een proef om te onderzoeken hoe je AI kunt inzetten bij het ontsluiten van bewegend beeld. Er is geëxperimenteerd met spraak- en beeldherkenning en sentimentanalyse, en op de website wordt in een AI-annotatie verteld hoe zoekresultaten tot stand zijn gekomen. Men zou ook graag data stories maken, maar dat blijkt nog niet zo makkelijk.
Kunstenaar Richard Vijgen maakte er een installatie bij: De toekomst door kunstmatige ogen. 20 jaar VPRO Tegenlicht. Wat voor patronen ‘ziet’ AI in de 555 uitzendingen? Tevens verscheen het Boek van de Toekomst.
De zaal is onder de indruk van het verhaal van Klein en Strengholt – wie zou er niet zo’n userinterface willen hebben – en vraagt uitgebreid naar de kosten, schaalbaarheid en toekomstbestendigheid. Tot de borrel lonkt, en het verbinden en netwerken letterlijk in praktijk kan worden gebracht.
> Van de acht lezingen kun je zeven presentaties bekijken op vogin-ip-lezing.net/presentaties-2022/.
> Ook kun je zeven van de elf workshoppresentaties inzien op vogin-ip-lezing.net/presentaties-2022/. In de volgende IP meer aandacht voor de workshops tijdens de VOGIN-IP-lezing 2022.
Marjo Bakker is redacteur van IP en teamleider Collecties, datasteward en vakreferent bij het NIOD Instituut voor Oorlogs-, Holocaust- en Genocidestudies. Cindy Lammers is hoofdredacteur van IP.
Deze bijdrage komt uit het digitale magazine IP #5/2022. Klik op de onderstaande button om het hele nummer te lezen.