UvA-onderzoek: AI-modellen kunnen niet zo denken als de mens

Kunstmatige intelligentie (AI) wordt steeds beter in het oplossen van complexe problemen, maar schieten tekort als de problemen worden aangepast. Dat legt belangrijke zwakheden in hun redeneercapaciteiten bloot, volgens onderzoek van de Universiteit van Amsterdam (UvA).

Grote taalmodellen zoals GPT-4 presteren goed op allerlei tests, waaronder die waarbij analoog redeneren belangrijk is. Maar ze kunnen niet zo denken als de mens, concluderen taal- en AI-experts Martha Lewis (Institute for Logic, Language and Computation aan de Universiteit van Amsterdam) en Melanie Mitchell (Santa Fe Institute).

Lewis en Mitchell vergeleken de prestaties van mensen en GPT-modellen op drie verschillende soorten analogieproblemen: letterreeksen, cijfermatrices en verhaalanalogieën. Mensen bleven goed presteren op aangepaste versies van de problemen, terwijl GPT-modellen wel goed presteerden op standaardanalogieproblemen, maar moeite hadden met kleine variaties.

Belangrijke beslissingen

Hoewel AI-modellen indrukwekkende prestaties laten zien, betekent dit niet dat ze écht begrijpen wat ze doen, zo concluderen Lewis en Mitchell. ‘Ons onderzoek toont aan dat GPT-modellen vaak afhangen van oppervlakkige patronen in plaats van diep inzicht. Dit is een waarschuwing voor het gebruik van AI bij belangrijke beslissingen. Denk aan het onderwijs, de rechtspraak of de gezondheidszorg. AI kan een krachtig hulpmiddel zijn, maar het is nog geen vervanging voor menselijk denken en redeneren.’