Een kind denkt veel flexibeler dan AI dat volgens vaste patronen denkt. Hierdoor hebben grote taalmodellen zoals ChatGPT nog altijd moeite met het soort flexibel redeneren dat kinderen al vanaf jonge leeftijd beheersen. In een denkpuzzelwedstrijd tussen kinderen, volwassenen en AI versloegen kinderen AI ruimschoots, zo blijkt uit onderzoek van de Universiteit van Amsterdam en het Santa Fe Institute.
De onderzoekers vergeleken de prestaties van kinderen tussen de 7 en 9 jaar, volwassenen en vier van de belangrijkste AI-modellen van dit moment – waaronder ChatGPT- op een reeks analogiepuzzels. Een analogiepuzzel is een denkopgave waarbij je zoekt naar hetzelfde soort verband of overeenkomst tussen twee verschillende situaties. Het gaat bij zo’n puzzel niet om wat dingen zijn, maar om hoe ze tot elkaar in relatie staan. Bijvoorbeeld: Lichaam is tot voeten als boom is tot (wortels). Of: paard is tot stal als kip is tot (kippenhok).
Letterreeksen
In het onderzoek werden op tekst gebaseerde puzzels gebruikt. ‘Taalmodellen hebben nog veel moeite met het begrijpen van visuele puzzels’, legt hoofdonderzoeker Claire Stevenson van de UvA uit. ‘Maar de puzzel mocht ook geen moeilijke woorden bevatten die kinderen niet begrijpen.’ Ze kwamen daarom uit op letterreeksen. ‘Hier heb je bijna geen speciale kennis voor nodig’, stelt Stevenson. ‘Je kunt daardoor goed ontdekken hoe mensen en AI op een gelijk speelveld analogieën oplossen.’
De kinderen, volwassenen en AI moesten letterreeksen voorspellen die steeds veranderden volgens één of meer regels. Bijvoorbeeld: als ‘ab’ verandert in ‘ac’, wat moet er dan gebeuren met ‘gh’? Ze moesten dezelfde logica vervolgens toepassen in andere ‘alfabetten’: het Griekse alfabet en een alfabet met onbekende symbolen.
Kinderen scoren veel beter dan AI
De resultaten waren duidelijk: kinderen en volwassenen pasten hun kennis vrij makkelijk toe in de onbekende domeinen – het Griekse en symbolen alfabet – terwijl de AI-modellen dat minder goed konden. Vooral bij het symbolenalfabet stortte de AI-prestatie in: waar kinderen gemiddeld 67 procent van de opgaven goed hadden, en zelfs beter scoorden in dit nieuwe en onbekende alfabet, daalden de modellen soms tot onder de 20 procent.
Volgens de onderzoekers laat dit zien dat er een wezenlijk verschil is tussen menselijk en kunstmatig redeneren. Stevenson: ‘Zelfs jonge kinderen begrijpen intuïtief dat een alfabet een geordende reeks is. AI-modellen missen dat abstracte inzicht: ze herkennen vooral patronen in situaties die ze al kennen. Zodra de context verandert, kunnen ze de onderliggende structuur niet meer toepassen.’