Brein haalt grote illegale Nederlandstalige dataset voor trainen AI-modellen offline

Stichting Brein heeft een grote Nederlandstalige dataset offline gehaald. Volgens de stichting werden illegale kopieën van auteursrechtelijk beschermde werken gebruikt voor het trainen van AI-modellen.

Het zou gaan om illegale kopieën van tienduizenden boeken, miljoenen regels uit nieuwsartikelen van nieuwssites als nu.nl en ondertitels van talloze films en tv-series uit illegale bron. Brein meldt dat het om gecomprimeerde data zou gaan. Op die manier was de set makkelijk bruikbaar voor het trainen van AI-modellen.

Tienduizend resultaten

Brein-directeur Bastiaan van Ramshorst: ‘We hebben in de dataset onder meer gezocht naar de letterlijke tekst: “Niets uit deze uitgave mag worden verveelvoudigd”. Dat leverde meer dan tienduizend resultaten op. Stuk voor stuk betrof dit illegaal gekopieerde boeken. Ook de nieuwsartikelen zijn gekopieerd van websites met auteursrechtvoorbehoud.’

De dataset is inmiddels offline gehaald. Volgens Brein heeft de maker ervan een verklaring ondertekend waarin hij belooft geen inbreuk meer te maken op auteursrechten. Hij zou inmiddels ook informatie hebben gegeven over wie de dataset heeft ontvangen.

Brein doet onderzoek naar welke AI-modellen de dataset hebben gebruikt en zal de betrokken partijen daarop aanspreken, schrijft de stichting op haar website.

Scrapen

Er lopen inmiddels internationaal zaken over het gebruik van auteursrechtelijk beschermde werken voor het trainen van AI-modellen. Veel bedrijven trainen hun AI-modellen door content van het internet te scrapen.