Door: Frank Huysmans
Datafabricatie. Wel eens van gehoord? Of p-hacking? Beide zijn vormen van wetenschappelijke zwendel. In het eerste geval tik je à la Diederik Stapel je data zelf in. Je doet dat net zo lang tot de analyse van die data laat zien wat je hoopte aan te tonen. Bij p-hacking gebruik je wel echte data. Je analyseert een eind weg, verwijdert ‘cases die niet zo goed in het algemene beeld passen’, net zo lang tot je iets interessants tegenkomt. Wetenschappelijke tijdschriften, zeker de meest prestigieuze, zijn namelijk dol op ‘nieuwe inzichten’. Ze publiceren niet snel onderzoek dat, in jargon, de nulhypothese ondersteunt, oftewel geen statistisch significant effect laat zien. Gelukkig heeft de wetenschap een immuunsysteem om ziektes als deze te lijf te gaan. Om de haverklap verschijnen er thans studies die met statistische methoden op zoek gaan naar datafabricatie en p-hacking. Zulk onderzoek wordt eenvoudiger doordat grote aantallen wetenschappelijke papers digitaal beschikbaar zijn. Althans: zouden moeten zijn. Het is helaas nog niet algemeen bekend dat ‘open access’ meer is dan gratis toegang alleen. Je moet ook een lokale kopie kunnen maken van grote hoeveelheden artikelen om er de relevante data uit te kunnen halen. En dat moet auteursrechtelijk zijn toegestaan.
Publicatieplatforms als PeerJ en PLOS doen niet moeilijk. Alles verschijnt daar onder een Creative Commons-licentie (cc-by) die content mining (ook wel text and data mining, TDM) mogelijk maakt. Bovendien zetten ze op aanvraag een dump van de benodigde artikelen voor je klaar. Maar mik je op een goede afspiegeling van een wetenschappelijke discipline, dan ben je óók aangewezen op grote uitgevers die ‘hun’ copyrighted content niet zo makkelijk vrijgeven. Via een API kun je soms wel bij dat materiaal. Daarvoor moet je dan wel licentieovereenkomsten aangaan die een combinatie van data uit verschillende bronnen weer onmogelijk maken. De universiteitsbibliotheken zijn hier kritisch over en de Europese Commissie lijkt een oplossing te gaan aandragen. Brussel creëert echter nieuwe mist door dit alleen toe te staan voor onderzoeksorganisaties die ‘in het publieke belang’ werken. Wat dat zijn? Daar mogen advocaten, rechters en het Europese Hof weer jaren over gaan stoeien.
Open access heeft de wind mee. Zo is er per 1 juli een artikel in de auteurswet terecht gekomen dat het mogelijk maakt je werk binnen redelijke termijn online te zetten. Vanaf december moeten ontvangers van NWO-subsidies ervoor zorgen dat hun publicaties per direct voor iedereen beschikbaar zijn. Jammer genoeg lijkt open access tegelijkertijd te verwateren tot toegang alleen en wordt hergebruik niet genoemd. Zo schrijft de NWO-richtlijn geen licenties voor die ook content mining mogelijk maken. Navraag leert dat dit uiteindelijk wel onderdeel van het NWO-beleid zal worden. Content mining heeft grote potentie voor de wetenschap. Om fraude op te sporen en om nieuwe vragen te beantwoorden. Maar dan moet het wel mogen.
Frank Huysmans is redacteur van IP, bijzonder hoogleraar bibliotheekwetenschap aan de UvA en zelfstandig onderzoeker en adviseur.
Deze bijdrage komt uit IP nr. 9 / 2015. Het gehele nummer kun je hier lezen