Common Crawl verwijdert op verzoek van Brein twee miljoen artikelen

Common Crawl, bron van trainingsmateriaal voor AI-diensten, heeft op verzoek van Stichting Brein ruim twee miljoen nieuwsartikelen uit haar databank verwijderd.

Common Crawl is een Amerikaanse non-profitorganisatie die het internet kopieert (scraping) en haar databank gratis ter beschikking stelt aan consumenten en bedrijven. Het gaat onder meer om generatieve AI-diensten die deze datasets gebruiken om hun AI-modellen te trainen. Het webarchief van Common Crawl bestaat uit petabytes aan veelal auteursrechtelijk beschermde werken. Bijvoorbeeld nieuwsartikelen die Common Crawl sinds 2008 verzamelt. Common Crawl vult haar archief maandelijks aan met nieuw op het internet gepubliceerd materiaal.

Nederlandse nieuwssites

In de databank van Common Crawl zitten onder meer artikelen die zijn gepubliceerd op bekende Nederlandse nieuwssites en in digitale kranten. Hiervoor is geen toestemming gegeven. Brein verzocht de organisatie namens een aantal Nederlandse nieuwsuitgevers deze zonder toestemming gekopieerde webpagina’s te verwijderen.

Uit onderzoek blijkt dat zo goed als alle grote generatieve AI-taalmodellen (mede) getraind zijn op Common Crawl-data. Het betreft in ieder geval OpenELM van Apple, Phi van Microsoft, ChatGPT van OpenAI, Nemo Megatron van NVIDIA, Deepseek v3 van Deepseek en Claude van Anthropic.

‘Het grootschalige ongeautoriseerde gebruik van beschermde werken om generatieve AI-modellen te trainen is een gigantische inbreuk op auteursrechten’, zegt Brein-directeur Bastiaan van Ramshorst. ‘In deze zaak gaat het om het wegnemen van de mogelijkheid om eenvoudig miljoenen persartikelen te kunnen overnemen uit de database van Common Crawl. Eerder haalde Brein ook al andere Nederlandstalige trainingsdatasets offline.’