Door Josien Boetje en Tale Evenhuis
Het aantal wetenschappelijke publicaties groeit exponentieel. Alleen al PubMed heeft momenteel ruim 38 miljoen artikelen, waarvan de helft is gepubliceerd na 2008. Voor informatiespecialisten en onderzoekers wordt het steeds uitdagender om relevante literatuur te vinden in deze enorme databerg. Universiteit Utrecht bedacht hiervoor de AI-tool ASReview, maar een cruciale vraag blijft: wanneer kun je stoppen met zoeken? De recent ontwikkelde SAFE-procedure biedt hiervoor een systematische aanpak.
Traditioneel worden grote literatuurverzamelingen handmatig gescreend, waarbij onderzoekers elk abstract beoordelen op relevantie. Om dit proces behapbaar te maken wordt vaak gefilterd op jaartal of publicatietype. Deze aanpak heeft echter een belangrijk nadeel: mogelijk relevante studies worden op voorhand uitgesloten.
ASReview, een opensourcetool die kunstmatige intelligentie inzet bij het screenen van literatuur, ontwikkeld aan de Universiteit Utrecht, biedt een innovatieve oplossing door gebruik te maken van ‘active learning’. Hiermee kunnen grote sets van referenties (denk aan twintigduizend of meer) binnen een mum van tijd worden gesorteerd op relevantie. Dit betekent dat het systeem leert van de keuzes die een onderzoeker maakt en vervolgens artikelen die waarschijnlijk relevant zijn bovenaan de lijst plaatst. Deze methode, ook wel ‘priority screening’ genoemd, maakt het mogelijk om grote hoeveelheden literatuur efficiënt te verwerken. Tegelijkertijd kan het de kwaliteit van de keuzes vergroten, omdat je de relevante artikelen al vroeg in het proces tegenkomt, nog voor de ‘screener fatigue’ intreedt.
MEERDERE STOPCRITERIA
Hoewel ASReview het screeningsproces aanzienlijk versnelt, blijft een belangrijke vraag onbeantwoord: wanneer kun je met zekerheid stoppen met screenen? Deze vraag werd eerder ook al gesteld door Daphne Spoolder in IP #4-2023. Te vroeg stoppen betekent het missen van relevante artikelen, te laat stoppen kost onnodig veel tijd. Om deze uitdaging aan te pakken is de SAFE-procedure ontwikkeld, een systematische aanpak die onderzoekers helpt deze beslissing weloverwogen te nemen. Deze is door Josien Boetje en Rens van de Schoot eerder beschreven in Systematic Reviews. De SAFE-procedure heeft als doel het vertrouwen te verhogen dat er weinig tot geen relevante artikelen worden gemist, door een combinatie van meerdere stopcriteria.
VIER FASEN
De SAFE-procedure bestaat uit vier opeenvolgende fasen:
1 Screen callibration set: deze eerste fase is vooral bedoeld voor kalibratie van criteria en screeners. Het doel is om scherpe inclusie- en exclusiecriteria vast te stellen en screeners op elkaar te laten afstemmen voordat je begint met active learning. Gedurende het screeningsproces zullen er ongetwijfeld verrassingen zijn, maar als er van tevoren niet goed is nagedacht over de inclusie- en exclusiecriteria, worden al snel te veel referenties geïncludeerd. Hierdoor krijgt de reviewer niet de beste efficiëntie en zal het nog langer duren voordat er alleen nog irrelevante referenties worden gevonden.
De meest efficiënte aanpak die wij aanbevelen is:
> Iteratieve initiële screening met overleg: één screener start direct met active learning en screent de eerste vijftig records op basis van titel en abstract. Bij alle mogelijke inclusies wordt meteen de full-text opgezocht om een definitieve keuze te maken. Deze iteratieve werkwijze heeft grote voordelen: ASReview presenteert records met de hoogste waarschijnlijkheid om relevant te zijn, terwijl veel klassieke AI juist de twijfelgevallen biedt. Dit zijn precies de records waar je criteria op wilt aanscherpen. Kom je al veel twijfelgevallen tegen? Stop dan eerder en overleg direct met je medescreener over deze lastige cases. Na het bespreken en aanscherpen van de criteria ga je weer een batch van vijftig records screenen. Je herhaalt dit proces tot de inter-rater reliability (IRR) hoog genoeg is (Cohen’s kappa > 0.6). Deze beslissingen zijn nooit voor niets: ze tellen mee voor je uiteindelijke screening én leveren waarschijnlijk al veel relevante artikelen op.
Andere opties zijn:
> Random screening: screen samen honderd willekeurige records of 1 procent willekeurige records.
- Voordeel: representatief.
- Nadeel: bij weinig relevante records krijg je vooral irrelevante voorbeelden om te bespreken.
> Expert input: vraag meerdere experts in je vakgebied naar vijf tot tien relevante artikelen in je onderzoeksgebied. Bespreek deze als team om criteria aan te scherpen.
- Voordeel: veel relevante voorbeelden.
- Nadeel: mogelijk niet representatief voor je dataset.
Welke optie je ook kiest, los steeds verschillen van mening op door overleg – tot je consensus bereikt.
2 Active learning: de tweede fase gebruikt active learning om artikelen te sorteren op relevantie. Het screenen gaat door totdat aan specifieke criteria is voldaan, zoals het vinden van vooraf geïdentificeerde sleutelartikelen en als er honderd irrelevante referenties op rij gevonden zijn.
3 Find more using deep learning: in de derde fase wordt een deeplearningalgoritme ingezet om mogelijk gemiste artikelen op te sporen. Dit vangt artikelen die door het eerste model mogelijk over het hoofd zijn gezien. Deze fase hoeft echter alleen te worden toegepast bij reviews waar je de kans op een gemiste treffer echt zo klein mogelijk wilt maken en als je twijfelt of je in de voorgaande fase wel alles hebt gevonden.
4 Evaluate quality: de laatste fase bestaat uit een kwaliteitscontrole waarbij de door de screeners geëxcludeerde artikelen nogmaals worden gecontroleerd.
SAFE-PROCEDURE IN DE PRAKTIJK
Een recent praktijkvoorbeeld illustreert de systematische werking van de SAFE-procedure. Bij een literatuuronderzoek naar onderwijsinnovatie werd een dataset van 11.569 referenties systematisch gescreend. Hieronder volgt het proces stap voor stap.
Fase 1 > screen callibration set: om te kalibreren kozen de onderzoekers ervoor om in de eerste fase 1 procent van de totale dataset (116 referenties) willekeurig te selecteren en handmatig te screenen. Dit leverde zes relevante publicaties op. De IRR was voldoende (k = .65). Meningsverschillen werden opgelost door te discussiëren totdat consensus werd bereikt. Er werd dus eerst handmatig een aantal referenties gescreend zonder dat er een algoritme werd getraind. Dit is mogelijk in ASReview door in de Customize-optie het model Custom, met als Querier ‘Random’, te selecteren. Hiernaast vroegen de onderzoekers aan zes experts uit het veld om ‘sleutelpublicaties’ te noemen bij de onderzoeksvraag. Ook deze werden besproken en dit leidde tot acht sleutelpublicaties.
Tip: de criteria kunnen worden ingevoerd in ASReview als tags. Deze criteria worden dan bij iedere referentie getoond, zodat kan worden aangevinkt welke criteria van toepassing zijn.
Fase 2 > active learning: met deze dataset van handmatig gescreende referenties als uitgangspunt werd ASReview ingezet met een eerste algoritme, ELAS U4 (TF-IDF als feature extractor en Support Vector Machine als classifier), om de referenties te ordenen op relevantie. Het gekozen model is relatief eenvoudig, zodat het trainen van het model niet te lang duurt en de onderzoekers snel van start kunnen gaan. Bij twijfel over in- of exclusie werd de full-text bekeken. Dit zorgt voor een nog betere training van het model, wat uiteindelijk weer tijd bespaart. Het screeningsteam ging door met beoordelen tot aan vier voorwaarden was voldaan:
- Alle vooraf geïdentificeerde sleutelpublicaties waren gevonden. Dit waren er acht.
- Er waren tenminste honderd opeenvolgende niet-relevante publicaties gevonden.
Fase 3 > find more using deep learning: in de derde fase werd een krachtiger algoritme ingezet, ELAS H3 (mxbai-SBERT met Support Vector Machine), om de gehele dataset nog eens op een andere manier te trainen en mogelijk gemiste relevante publicaties op te sporen. Het trainen van zo’n deeplearningmodel kan echter aanzienlijk meer tijd in beslag nemen dan eenvoudige modellen, afhankelijk van de grootte van je dataset en de rekenkracht van je computer. Het vergt ook bepaalde hardwarevereisten van je computer. Deze fase kon worden afgesloten toen opnieuw honderd opeenvolgende publicaties als niet-relevant waren beoordeeld. In dit specifieke geval vond het team nog vier aanvullende relevante publicaties die het eerste model had gemist.
Let wel: de fase A van deze review was nog op basis van de oudere ASReview-modellen, het huidige ELAS U4 is al zo krachtig dat dit al veel meer referenties vindt. In de meeste gevallen is de deeplearningfase niet nodig.
Fase 4 > evaluate quality: in de laatste kwaliteitscontrole werden alle als niet-relevant gemarkeerde publicaties nogmaals gerangschikt met behulp van het lichte algoritme U4. Hierbij werden de tien hoogst en tien laagst gerangschikte publicaties uit de vorige fase gebruikt als trainingsdata. Deze laatste controle, die doorging tot er weer honderd opeenvolgende niet-relevante publicaties waren gevonden, gaf het team een grote mate van zekerheid dat er geen belangrijke publicaties waren gemist.
Het eindresultaat: van de oorspronkelijke 11.569 referenties werden uiteindelijk 157 relevante publicaties geïdentificeerd, waarvan er 69 uiteindelijk werden geïncludeerd in de analyse. Door de systematische aanpak van de SAFE-procedure kon het team met vertrouwen vaststellen dat het screeningsproces volledig en zorgvuldig was uitgevoerd, terwijl slechts een fractie van de tijd was besteed die nodig zou zijn geweest voor volledig handmatige screening. (Zie figuur 3)
MEERDERE SCREENERS
Als je met twee of meer screeners werkt, wordt de procedure iets aangepast. In de screeningsfase gaat de eerste screener aan de slag met een set van 1 procent van de referentieset, exporteert deze als Excel-bestand, verwijdert de markeringen van de inclusie/exclusie en geeft deze aan de andere screener(s). De andere screeners bekijken de set en gaan aan de slag om deze te labelen. Daarna worden de labels naast elkaar gehouden, de inter-rater reliability berekend en verschillen in labels bediscussieerd tot overeenstemming over de inclusie- en exclusiecriteria wordt bereikt. Daarna gaat iedere screener voor zich de ‘active learning’-fase met ELAS U4 uitvoeren (en optioneel in de ‘find more’-fase met H3). Hierna worden de datasets geëxporteerd en wordt de IRR opnieuw uitgerekend. Verschillen in labels worden bediscussieerd tot overeenstemming over de inclusie- en exclusiecriteria wordt bereikt. Tot slot neemt een van de screeners (of een derde expert) in de ‘evaluate’-fase alle exclusies door met ELAS U4.
ANDERE MOGELIJKHEDEN ASREVIEW
Het is mogelijk een stopdrempel in te stellen. Stopdrempels worden uitgedrukt in het minimumaantal irrelevante referenties op een rij. Dit aantal kan de gebruiker zelf instellen. ASReview geeft dan een seintje dat het aantal niet-relevante referenties op een rij is bereikt.
Tot slot is er een aantal analysetools. Met Density kan worden gekeken hoe de spreiding van het aantal gevonden relevante referenties zich verhoudt tot het aantal gevonden niet-relevante referenties. Het idee is dat in het begin van het screeningsproces, waarbij het model op de achtergrond meedraait, veel relevante referenties worden gevonden. Na verloop van tijd zou het aantal niet-relevante referenties moeten overheersen.
Met Recall wordt gekeken hoe goed het model werkt ten opzichte van handmatig screenen van referenties in een willekeurige volgorde. Wanneer de verticale lijn stijl omhooggaat en daarna afvlakt, betekent dat de meeste relevante referenties zijn gevonden binnen een klein deel van de set van referenties.
De Wave-grafiek geeft een overzicht van de afstand tussen het aantal gevonden relevante referenties en het aantal gevonden niet-relevante referenties. Wanneer de afstand tussen relevante records en niet-relevante records klein is, worden er dus in korte tijd veel relevante records gevonden. Daarmee is de verwachting dat er voorlopig nog een behoorlijk aantal relevante referenties te vinden is. Wanneer de afstand tussen relevante records en niet-relevante records groot is, worden er dus steeds minder vaak relevante records gevonden. Daarmee is de verwachting dat er weinig nieuwe relevante referenties te verwachten zijn.
ROL INFORMATIESPECIALIST
Voor informatiespecialisten biedt de SAFE-procedure een gestructureerd kader om onderzoekers te begeleiden bij het screeningsproces. Hun rol verschuift van het handmatig filteren van zoekresultaten naar het adviseren over en begeleiden van een systematisch screeningsproces. Belangrijke taken zijn:
- Advisering over het aantal referenties dat in de bibliografische bestanden kan worden gevonden, omdat er veel grotere zoeksets kunnen worden verwerkt en er dus minder reden is om in te perken met andere concepten of andere criteria.
- Voorbereiding van de dataset door zorgvuldige ontdubbeling.
- Advisering rond het bepalen van inclusie- en exclusiecriteria.
- Begeleiding bij de implementatie van de SAFE-procedure.
- Advisering over stopcriteria in elke fase.
- Ondersteuning bij de documentatie van het proces.
- Toelichting hoe het screeningsproces van ASReview zo efficiënt mogelijk kan worden uitgevoerd.
Naast het traditionele stroomdiagram voor de zoekprocedure en de selectiecriteria moet ook helder worden uitgelegd hoe modellen zijn toegepast. Juist ASReview leent zich voor een transparante beschrijving van de gevolgde procedure. Je kunt alle gelabelde referenties en de gebruikte AI-modellen exporteren en publiceren op bijvoorbeeld OSF.
ZORGEN OVER MISSEN REFERENTIES
Informatiespecialisten zijn vaak bezorgd over het mogelijk missen van relevante referenties als kunstmatige intelligentie wordt toegepast bij de selectie van referenties ten behoeve van een systematic review. Deze zorg is heel begrijpelijk, maar om verschillende redenen geen reden om ASReview niet in te zetten. Ten eerste is het, met het groeiende aantal onderzoekspublicaties, ondoenlijk om een voortdurend groter aantal referenties dat in bibliografische databanken wordt gevonden, door te nemen. Het steeds verder inperken met andere concepten of diverse filters zal ook verlies van mogelijk relevante referenties opleveren. Ten tweede is het niet mogelijk om geheel compleet te zijn. Niet alle referenties zitten in bibliografische databanken en niet alle referenties zijn goed ontsloten. Ten derde worden bij het handmatig doornemen van referenties ook relevante referenties gemist. Dit kan wel oplopen tot 10 procent.
De bovenstaande workflow is evenmin een garantie dat alle relevante referenties worden gevonden. Echter, het is een doordachte en inmiddels ook regelmatig beproefde methode om de kans op een gemiste treffer zo klein mogelijk te houden.
Hoewel ASReview het meest geschikt is voor datasets van een paar duizend records, kan het AI-model ook worden ingezet voor het screenen van kleinere datasets. Het hoeft dan niet te worden toegepast, maar er kan wel worden gebruikgemaakt van de opties om inclusie- en exclusiecriteria vast te leggen en aantekeningen te maken.
Josien Boetje is promovendus Digitale Informatievaardigheden & AI en lerarenopleider Digitale Geletterdheid aan de Hogeschool Utrecht en Open Universiteit; Tale Evenhuis is datasteward en informatiespecialist aan de Hogeschool Utrecht.
Reflectie – open source in actie
Rens van de Schoot, hoogleraar Collaborative AI aan de Universiteit Utrecht, projectcoördinator ASReview: ‘Het leuke van een opensourceproject is dat iedereen kan bijdragen aan het verbeteren van de software en de bijbehorende infrastructuur. Sommigen schrijven code of verbeteren de documentatie. Anderen, zoals de auteurs van dit stuk, stelden tijdens een summer school zóveel vragen dat ze daarna de antwoorden hebben verwerkt tot een prachtig wetenschappelijk artikel. En dat artikel werd ook nog eens afgestemd met de gebruikers zelf tijdens onze donderdag-inloopdagen in de universiteitsbibliotheek op de Drift. Een mooi voorbeeld van open science én team science in de praktijk!
Het nadeel van een wetenschappelijk artikel is helaas wel dat het altijd een momentopname blijft, terwijl inzichten en ontwikkelingen in hoog tempo doorgaan, zeker op het gebied van AI en het toepassen daarvan. Sinds het eerste artikel over de SAFE-procedure verschenen is, zijn gebruikers steeds grotere datasets gaan verwerken. Daardoor waren veel suggesties uit dat eerste paper niet meer logisch of praktisch uitvoerbaar – het lezen van 1 procent van drieduizend artikelen is tenslotte iets heel anders dan het lezen van 1 procent van 150.000 artikelen. Ondertussen kwam ASReview v2 uit, met modellen die maar liefst 24 procent beter presteren. Dat betekent dat onderzoekers nog sneller door hun stapel literatuur kunnen gaan.
Het artikel dat je nu hebt gelezen, is daarom een waardevolle update van de SAFE-procedure, afgestemd op de nieuwste praktijkervaringen en technische mogelijkheden. Deze update kan weer een tijdje mee – tot de volgende innovaties hun weg vinden in ASReview. Of tot de dag dat gebruikers helemaal geen enkel artikel meer willen lezen en alles overlaten aan AI … maar ik hoop dat die dag nog ver in de toekomst ligt.
Wat ik wél hoop, is dat software zoals ASReview steeds beter helpt om alleen de meest relevante artikelen naar voren te halen. Zodat de expert de expert kan blijven, en AI fungeert als een betrouwbare, razendsnelle super-assistent. De kracht zit in de combinatie: menselijke kennis en ervaring, aangevuld met slimme technologie die je ondersteunt in plaats van vervangt. Want anders komt er een dag dat de AI zegt: “Ga jij maar koffiedrinken, ik regel die systematic review wel. Ik schrijf ’m, dien ’m in, accepteer ’m namens de reviewers, publiceer ’m in Nature, citeer ’m driehonderd keer en nomineer je meteen voor een wetenschapsprijs. Oh, en ik heb alvast je LinkedIn geüpdatet.”’
> Rens van de Schoot verzorgde ook de afsluitende keynote van de jaarlijkse VOGIN-IP-lezing op 27 maart 2025. Zijn presentatie, met als titel: ‘Mensen, machines en de zoektocht naar het laatste relevante paper’, vind je op vogin-ip-lezing.net/presentaties-bij-de-lezingen-2025/#rens
Deze bijdrage komt uit de papieren IP #8-2025. Het hele nummer kun je hieronder lezen of downloaden.