Doorbraak in het zoeken door ‘onleesbare’ teksten

Groningse onderzoeker ontwikkelt algoritme voor ongestructureerde teksten en losse notities.

Onderzoekers van de Rijksuniversiteit Groningen hebben een techniek ontwikkeld om snel relevante informatie te filteren. Het gaat dan om lappen tekst die helemaal niet geschreven zijn om van a tot z te lezen. Dankzij de nieuwe methode kunnen nu ook nauwelijks gestructureerde teksten, losse notities en intern bedoelde documenten worden gescand. De bedenker van deze vorm van kunstmatige intelligentie is Ashwin Ittoo. Hij verwacht dat de algoritmen die hij heeft ontwikkeld zeer breed toepasbaar zijn, onder meer door zoekmachines als Google. Ittoo promoveerde op 5 januari jl. op zijn algoritme aan de Faculteit Economie en Bedrijfskunde.

Het was al mogelijk een computer goed leesbare teksten, zoals nieuwsberichten en wetenschappelijke artikelen, te laten begrijpen en er relevante informatie aan te onttrekken. Deze vorm van geautomatiseerde tekstanalyse kan dankzij Ittoo’s onderzoek nu ook worden toegepast op in telegramstijl geschreven informele kladjes, vol spel- en grammaticafouten, zoals klachtenformulieren van klanten of interne memo’s. Ittoo testte en ontwikkelde zijn zoekalgoritmes onder meer bij Philips Health Care en Bang&Olufsen. Beide bedrijven gebruiken inmiddels prototypes van zijn zoektechniek om hun bedrijfsinformatie, bijvoorbeeld over klanttevredenheid, te verfijnen.

Hoewel de techniek is ontwikkeld bij bedrijven in consumentenelektronica, is deze veel breder toepasbaar, onder meer in medische dossiers, in financiële documenten, bij terrorismebestrijding en in zoekmachines. Ittoo stelt vast dat zoeken via Google vaak zeer veel resultaten oplevert, waardoor de behoefte bestaat die trefzeker te kunnen filteren. De onderzoeker verwacht dat zijn algoritmes daarbij behulpzaam zijn.

Deze bijdrage komt uit IP nr. 1&2 / 2012. Het gehele nummer kun je hier lezen