The New York Times verbiedt sinds kort het gebruik van zijn artikelen en andere content voor het trainen van AI-modellen. Webcrawlers mogen content van de website ook niet zonder toestemming verzamelen. Daartoe paste de krant recent zijn voorwaarden aan.
Met de nieuwe voorwaarden verbiedt The New York Times het scrapen van zijn artikelen, foto’s, afbeeldingen, illustraties, audio- en videoclips, ontwerpen en metadata voor het trainen van machinelearning- of AI-modellen. Ook webcrawlers mogen content van de krant niet gebruiken om grote taalmodellen of AI-systemen te trainen. Het niet naleven van de nieuwe beperkingen kan volgens NYT leiden tot boetes of straffen, maar de exacte invulling daarvan wordt niet genoemd in de voorwaarden. De krant lijkt zijn robots.txt-bestand, waarmee webcrawlers van zoekmachines worden geïnformeerd welke URL’s toegankelijk zijn, niet te hebben aangepast, constateert Tweakers.
‘Openbare informatie’ versus ‘diefstal’
Het gebruik van AI is in de mediawereld niet onomstreden, zo schrijft de Volkskrant. ‘Bedrijven als OpenAI en Google hebben voor hun taalmodellen achter respectievelijk ChatGPT en Bard grote hoeveelheden tekst nodig als trainingsmateriaal. Naast bijvoorbeeld e-books en Wikipedia-artikelen hebben ze hiervoor ook complete krantenarchieven gebruikt. Openbare informatie, volgens Google en OpenAI. Pure diefstal, volgens de uitgevers. Zij klagen dat al die indrukwekkende teksten die de chatbots uitspuwen, alleen kunnen ontstaan dankzij het werk van alle krantenredacties.’
Ook de artikelen van Nederlandse media zitten volop in de trainingsdata van die taalmodellen, bleek eerder dit jaar uit onderzoek van De Groene Amsterdammer. Zonder dat er ooit een euro is afgerekend voor het gebruik daarvan, aldus de Volkskrant.