Om ontwikkelingen in het hedendaagse Nederlands in kaart te brengen legt het Instituut voor de Nederlandse Taal (INT) het Corpus Hedendaags Nederlands (CHN) aan. Onlangs heeft het INT een overeenkomst gesloten met DPG Media, waardoor het krantenmateriaal in het CHN verder wordt uitgebreid.
Tot voor kort bevatte het Corpus Hedendaags Nederlands alleen teksten uit NRC, Het Nieuwsblad, De Standaard, Het Belang van Limburg en Gazet van Antwerpen. Door de samenwerking met DPG Media komen daar nu nog zes belangrijke kranten uit Nederland en België bij: het AD, de Volkskrant, Trouw, Het Parool, Het Laatste Nieuws en De Morgen. Het krantenmateriaal wordt continu aangeleverd, en iedere maand is er een update van het CHN zodat de meest recente kranten direct kunnen worden doorzocht.
Belang van data
Het INT wil als kennisinstituut voor het Nederlands over de grootst mogelijke datacollectie beschikken om op deze wijze te kunnen bijdragen aan onderzoek en onderwijs, zegt directeur Frieda Steurs. ‘Zo is de recente hype rond ChatGPT en generatieve AI een goede reden om ook voor het Nederlands een zo krachtig mogelijk taalmodel te bouwen.’ DPG Media hoopt dat de beschikbaarheid van de teksten een bijdrage kan leveren aan wetenschappelijk taalonderzoek. Zakelijk directeur Bart Verkade: ‘De Nederlandse taal is voortdurend in ontwikkeling. Dit wordt weerspiegeld in de teksten in dagbladen en op hun sites. Nieuwe woorden en veranderend taalgebruik komen daar snel tevoorschijn.’
Het CHN is gratis toegankelijk voor wetenschappelijk onderzoek. Met het oog op auteursrechten zijn alleen wel een gebruikersnaam en wachtwoord vereist. Inmiddels bevat het bijna 3 miljoen teksten uit kranten, tijdschriften, journaaluitzendingen, blogs, websites en romans. Een overzicht van de inhoud is (na inloggen) hier te zien.