Tof of sof: Copyright checken met Wikidata

Wikidata is de gegevensdatabase van Wikipedia. Met behulp van de linked data kunnen bijvoorbeeld werken worden opgespoord waarvan het auteursrecht is vervallen. Dat liet onlangs een onderzoek van Copyclear zien.

Door: Jos Damen

Analyse van gebruiksdata is bij bibliotheken en archieven op bescheiden schaal heel gewoon. Welke boeken worden het meest uitgeleend? Welke databases worden het vaakst gebruikt? Welke archiefstukken worden het meest geraadpleegd? Welke schilderijen uit het museum worden vaak gedeeld op sociale media? De antwoorden op dit soort vragen helpen bij de bepaling van het beleid van erfgoedinstellingen.

Artikelen ‘schrijven’ met data

De Nederlandse Wikipedia telt anno 2018 maar liefst 2 miljoen artikelen. Vele tienduizenden daarvan zijn niet handmatig aangemaakt, maar semi-automatisch. Neem bijvoorbeeld het artikel over het raderdiertje Ptygura Pilula (nl.wikipedia.org/wiki/Ptygura_pilula). De complete tekst van dat artikel luidt: Ptygura pilula is een raderdiertjessoort uit de familie Flosculariidae. De wetenschappelijke naam van deze soort is voor het eerst geldig gepubliceerd in 1872 door Cubitt. Vervolgens staat er een nette noot. Dat kan allemaal met behulp van een bot, dat een script uitvoert vanuit databases of lijsten. En iemand heeft later met de hand nog een foto toegevoegd.

Wikidata

Op dezelfde manier kan Wikidata ingezet worden. Feitelijk is Wikidata de gegevensdatabase van Wikipedia. Deze bestaat sinds 2012 en bouwt voort op Freebase (2007) dat in 2010 door Google gekocht werd in en in 2014 werd overgezet naar Wikidata.

Wikidata is een goed voorbeeld van linked data. Een voorbeeld: Jan Wolkers. In Wikidata heeft Wolkers nummer Q379679 – handig om de verschillende taalversies aan elkaar te koppelen. Verder zijn er een stuk of 50 kenmerken aan Jan Wolkers toegekend: man, Nederlander, geboren 26 oktober 1925, schrijver, beeldhouwer, Constantijn Huygensprijswinnaar. Maar ook zijn RKD-nummer, VIAF, ISNI, DNBL, BPN en Library of Congress ID opgenomen, wat allerlei koppelingen en verwijzingen mogelijk maakt.

Auteursrecht en Wikidata

Hoe link je Wikidata aan copyright? Op de Publiek Domeindag 2018 in de Koninklijke Bibliotheek presenteerden Hanno Lans en Michelle van Lanschot van Copyclear een onderzoek dat ze bij enkele musea en erfgoedinstellingen hadden uitgevoerd. Daarvoor hebben ze gebruik gemaakt van Wikidata, waar ze hun Copychecker aan hadden gekoppeld. Die Copychecker gaat na of er auteursrecht op objecten rust, en kijkt onder meer of een kunstenaar meer dan zeventig jaar geleden is overleden. Dat lijkt gemakkelijk, maar wie zich ooit heeft verdiept in auteursrecht, weet hoe moeilijk dat ligt, met incomplete namen, pseudoniemen, dienstverband, naamgenoten – en andere leuke instinkers.

Copyclear

Maar goed, Copyclear koppelde diverse bestanden aan elkaar. Daar kwamen interessante feiten uit. Een onderzochte groep van 3170 kunstenaars van Museum Boijmans Van Beuningen bleek voor 80 procent vindbaar in de database van het RKD-Nederlands Instituut voor Kunstgeschiedenis, en voor 92 procent in Wikidata. Van het werk van die groep bleek 53,1 procent niet meer beschermd door het auteursrecht. Bij 20,8 procent lag het auteursrecht bij de kunstenaar en bij 10,5 procent bij een collectieve beheersorganisatie.

Grappig genoeg bleken sommige van die beheersorganisaties ook nog auteursrecht te claimen op werken die al enige tijd in het publieke domein waren – terwijl ze er zelf meestal als de kippen bij zijn om fouten van anderen te corrigeren.

Een gelijksoortig onderzoek van Copyclear bij het Internationaal Instituut voor Sociale Geschiedenis (IISG) leverde weer andere uitkomsten op. De inhoud van een collectie bepaalt natuurlijk ook de uitkomsten van dit soort vergelijkingen.

Lans en Van Lanschot zitten met hun onderzoek op een zeer interessant onderwerp, dat door de linked data bovendien ook voor de instellingen zelf erg nuttig is. Niet alleen tof dus, maar ook uitnodigend tot meer onderzoek.

Jos Damen is hoofd bibliotheek & ICT van het Afrika-Studiecentrum, Universiteit Leiden.

Deze bijdrage komt uit IP nr. 3 / 2018. Het gehele nummer kun je hier lezen.