Een onderzoekende IP-lezer vraagt: Stel dat ik als onderzoeker een corpus wil tekstminen, waarvan ik vermoed dat dat een illegale kopie is (omdat ik weet dat de gedigitaliseerde tekst in een database van een wetenschappelijke uitgever zit). Is mijn analyse van die data dan ook illegaal?
Door: Raymond Snijders
Raymond Snijders antwoordt: Tekst- en datamining is het gericht zoeken naar statistische verbanden in gegevensverzamelingen (databanken) ten behoeve van wetenschappelijk, journalistiek of commercieel gebruik. Hierbij wordt een dataset van vele duizenden artikelen (een corpus) geanalyseerd. Op die manier kan er bijvoorbeeld een verband worden gevonden tussen een bepaald medicijn en een bijwerking, zonder dat dit expliciet in de artikelen staat aangegeven.
Bij tekstmining heb je niet alleen te maken met het auteursrecht op alle opgenomen artikelen in de dataset, maar ook met het databankenrecht: het recht van een uitgever om te bepalen hoe anderen de databases mogen gebruiken waar de artikelen in verzameld zijn.
Aangezien bij tekst- en datamining meestal grote hoeveelheden auteursrechtelijk beschermd materiaal gekopieerd worden uit (commerciële) databases van uitgevers, is daarvoor dus expliciet toestemming nodig van de rechthebbenden. De rechthebbenden zijn meestal de uitgevers en soms is die toestemming vooraf al gegeven. Sommige uitgevers bieden bijvoorbeeld speciale tekst- en dataminingtools aan voor onderzoekers waarmee hun databases doorzocht kunnen worden, terwijl andere bepaalde vormen van tekst- en datamining in de licentie toestaan. Maar veruit de meeste wetenschappelijke uitgevers maken het de onderzoekers bepaald niet gemakkelijk. Sterker nog: deze groep uitgevers treedt zelfs actief op tegen grootschalige tekst- en datamining.
Gelukkig is er een Europese wettelijke uitzondering voor tekst- en datamining in voorbereiding die onderzoekers hierin tegemoet zal komen. Tot het zover is, zijn er vele onderzoekers die zich niet altijd keurig aan de wet (kunnen) houden. Het vermoeden van de onderzoekende IP-lezer – dat de online gevonden corpus waarschijnlijk illegaal is – lijkt daarmee bevestigd. Als de oorspronkelijke samensteller van het corpus al toestemming had om de artikelen te verzamelen (en dat is niet aannemelijk), dan dekt die toestemming gegarandeerd niet het online zetten van al die artikelen af.
Is daarmee ook de analyse die met dat corpus gemaakt wordt illegaal? Niet per se. Zolang er maar geen inbreukmakende handelingen worden verricht bij het maken van de analyse, en de gepubliceerde analyse zelf ook geen inbreuk maakt op het auteursrecht.
Gebruikt een onderzoeker een onrechtmatig verkregen kopie van een corpus, dan maakt hij natuurlijk inbreuk op de rechten van een uitgever. Heeft hij echter zelf ook toegang tot de databank en heeft de analyse geen commercieel doel, dan zal dit in de praktijk weinig problemen opleveren. In die analyse mogen echter geen delen van artikelen opgenomen zijn: in de zogeheten Infopaq-arresten uit 2009 en 2012 stelde het Europese Hof van Justitie vast dat zelfs overnames van slechts elf woorden een inbreuk kunnen opleveren.
De kans dat uitgevers optreden tegen mogelijke auteursrechtinbreuken in analyses is niet heel groot. Ze hechten wel veel belang aan het beschermen van hun commerciële belangen en zien eerder bedreigingen dan kansen als het om teksten datamining gaat.
Of onderzoekers in de toekomst gemakkelijker – en legaal – aan tekstmining kunnen doen, valt dan ook nog te bezien.
Raymond Snijders, senior informatiebemiddelaar bij Hogeschool Windesheim.
Deze bijdrage komt uit IP nr. 8 / 2016. Het gehele nummer kun je hier lezen.