‘Betrouwbare trainingsdata essentieel voor solide AI’

Kunstmatige intelligentie brengt naast veel voordelen ook zorgen en risico’s mee. Veel organisaties ontwikkelen daarom hun eigen AI-systemen. Volgens experts is het gebruik van private in plaats van publieke AI-modellen in opkomst en spelen bedrijven hierop in door speciale datasets aan te bieden voor het trainen van AI.

Een op de drie werknemers maakte in 2023 volgens onderzoek al gebruik van ChatGPT of andere AI-systemen. Maar de informatie die hun AI-modellen genereren, kan feitelijke onjuistheden en andere fouten bevatten. Een andere zorg is dat de informatie die aan systemen wordt gevoed, gebruikt wordt om het model verder te trainen.

Onderscheid maken in de manier van training van modellen

Het zou geen reden moeten zijn om kunstmatige intelligentie links te laten liggen, zegt AI-expert Sebastiaan van der Lans van WordProof. Volgens Van der Lans is het belangrijk een onderscheid te maken in de manier waarop modellen worden getraind: ‘Bij private AI heb je als maker de controle over de betrouwbaarheid en juistheid van de gegevens die je gebruikt. Daardoor kun je de betrouwbaarheid van het hele AI-systeem makkelijker waarborgen. En als je het model volledig in eigen beheer hebt, voorkom je het risico dat er gevoelige informatie lekt.’

Steeds vaker eigen AI-systemen

Veel organisaties hebben dan ook hun eigen AI-systemen ontwikkeld, of zijn daar inmiddels mee bezig. Deze systemen worden bijvoorbeeld gevoed met informatie van de eigen website, ‘schone’ datasets van derde partijen, of een combinatie daarvan. Door de opkomst van private AI-modellen is er een groeiende behoefte aan betrouwbare data om dit soort modellen te trainen, ziet Van der Lans.

Bedrijven zoals Thomson Reuters, Quandl en S&P Capital IQ spelen al in op deze vraag door financiële gegevens en analyses aan te bieden voor AI-modellen. In Nederland biedt Keesing Technologies, expert op het gebied van identiteitsverificatie, sinds kort data aan die speciaal bedoeld zijn om AI-modellen te trainen. Productmanager Calum Bunney van Keesing: ‘We leveren van elk document accurate, gedetailleerde en betrouwbare gegevens aan, die het hart vormen van je AI-model.’ Keesing verkrijgt documenten direct van de verstrekkende autoriteiten. Vervolgens worden deze in hoge kwaliteit gefotografeerd en wordt positionele informatie verzameld. De dataset van Keesing bevat de belangrijkste beveiligingsfeatures, inclusief positionele coördinaten en foto’s in ultraviolet en infrarood licht. De dataset bestaat inmiddels uit zo’n zeventigduizend documentafbeeldingen, afkomstig van rijbewijzen, ID-kaarten en paspoorten.