Nederlandse AI-taalmodel GPT‑NL is klaar voor gebruik

GPT-NL is klaar voor gebruik. Het initiatief van non-profitorganisaties TNO, NFI en SURF moet een verantwoord alternatief bieden voor internationale modellen die ‘een kopie van het internet’ gebruiken als trainingsmateriaal. 

Saskia Lensink, projectleider van GPT-NL, geeft in een interview met Tweakers aan dat GPT-NL tot dusver het enige taalmodel is dat aantoonbaar aan de Europese privacywetgeving (AVG) voldoet. Ze erkent wel dat de kennis van de Nederlandse taal en cultuur inmiddels ook bij diensten als ChatGPT beter is geworden. Daarom richt GPT-NL zich vooral op het bieden van een ‘soeverein’ alternatief voor onder andere universiteiten, onderzoekers en overheden.

Lensink. ‘Die soevereiniteitskwestie speelt nu erg. We merken dat de behoefte vanuit organisaties dan ook vooral gericht is op die digitale autonomie en of wij een alternatief kunnen zijn voor andere llm’s.’

Grootste deel Nederlandse data

Het grootste deel van de Nederlandse data (24 miljard van de 29 miljard teksttokens) is afkomstig van bestaande bronnen. Zo stelden de leden van NDP Nieuwsmedia afgelopen zomer een omvangrijk deel van het archief van nieuwsartikelen van meer dan dertig landelijke en regionale nieuwstitels beschikbaar om het taalmodel verder te trainen. TNO heeft daarnaast een gedeelte ook zelf gemaakt om ervoor te zorgen dat er meer Nederlandse tekst in de trainingsdata zit. Het trainen van GPT-NL gebeurde op de Nederlandse supercomputer Snellius.

Het is de bedoeling dat het model in het najaar breder in de markt wordt gezet. Ook krijgt GPT-NL een andere naam, omdat een andere partij de naam al had vastgelegd.