Common Crawl, bron van trainingsmateriaal voor AI diensten, heeft op verzoek van Sichting Brein ruim twee miljoen nieuwsartikelen uit zijn databank verwijderd.
Common Crawl is een Amerikaanse non-profitorganisatie die het internet kopieert (scraping) en zijn databank gratis ter beschikking stelt aan consumenten en bedrijven. Het gaat onder meer om generatieve AI-diensten die deze datasets gebruiken om hun AI-modellen op te trainen. Het webarchief van Common Crawl bestaat uit petabytes aan veelal auteursrechtelijk beschermde werken. Bijvoorbeeld nieuwsartikelen die Common Crawl sinds 2008 verzamelt. Common Crawl vult zijn archief maandelijks aan met nieuw op het internet gepubliceerd materiaal.
Nederlandse nieuwssites
In de databank van Common Crawl zitten onder meer artikelen die zijn gepubliceerd op bekende Nederlandse nieuwssites en in digitale kranten. Hiervoor is geen toestemming gegeven. Brein verzocht de organisatie namens een aantal Nederlandse nieuwsuitgevers deze zonder toestemming gekopieerde webpagina’s te verwijderen.
Uit onderzoek blijkt dat zo goed als alle grote generatieve AI-taalmodellen (mede) getraind zijn op Common Crawl data. Het betreft in ieder geval openELM van Apple, Phi van Microsoft, ChatGPT van OpenAI, Nemo Megatron van NVIDIA, DeepseekV3 van Deepseek en Claude van Anthropic.
‘Het grootschalige ongeautoriseerd gebruik van beschermde werken om generatieve artificial intelligence modellen te trainen is een gigantische inbreuk op auteursrechten’, zegt Brein-directeur Bastiaan van Ramshorst. ‘In deze zaak gaat het om het wegnemen van de mogelijkheid om eenvoudig miljoenen persartikelen te kunnen overnemen uit de database van Common Crawl. Eerder haalde Brein ook al andere Nederlandstalige trainingsdatasets offline.’