BREIN haalt groot Nederlands AI-taalmodel offline

Stichting BREIN heeft afgelopen week een groot Nederlands generatief AI-taalmodel offline gehaald genaamd GEITje-7B. Het model was getraind op de grootste Nederlandstalige trainingsdataset die BREIN afgelopen zomer al offline haalde.

BREIN heeft de aanbieder onder meer aangesproken omdat het model getraind was op tienduizenden kopieën van Nederlandstalige boeken uit illegale bron. Deze bron is Library Genesis, een dienst die de Nederlandse rechter onrechtmatig heeft bevonden. Library Genesis is op verzoek van BREIN geblokkeerd door de Nederlandse accessproviders. Ook is het taalmodel getraind op teksten die zijn gekopieerd van nieuwssites zonder dat daar toestemming voor is gegeven.

Een verweer van de aanbieder van GEITje-7B was dat textmining en datamining zijn toegestaan voor wetenschappelijke doeleinden. Maar het model werd ook voor commercieel gebruik openbaar aangeboden op Huggingface.co, de community van AI-ontwikkelaars. 

Geen respect voor auteursrecht

De stichting ziet wereldwijd een tendens dat makers van AI-modellen ‘weinig of geen respect hebben voor auteursrecht’. ‘Of het nou gaat om muziek, tekst, foto’s of video, het hele internet wordt zonder toestemming gekopieerd. Alles met het doel om generatieve AI-modellen te trainen zonder dat de rechthebbenden van de oorspronkelijke werken daarvoor worden gecompenseerd. Dit is een kwalijke zaak en het moet stoppen.’

BREIN is niet tegen (het trainen van) AI maar vindt wel dat rechthebbenden daarvoor een eerlijke vergoeding moeten krijgen. ‘Ook als de oorspronkelijke makers niet willen dat hun materiaal voor het trainen van AI wordt gebruikt, moet dat worden gerespecteerd.’