Piek Vossen, hoogleraar Computationele Lexicologie bij de VU, is een van de keynotesprekers op de VOGIN-IP-lezing op 26 maart in de OBA. In een Q&A vertelt hij over de relatie tussen zoekmachines en big data.
In 2006 ben je vanuit een commercieel bedrijf – als Chief Technology Officer / CTO bij Irion Technologies in Delft – weer de wetenschap ingestapt. Een makkelijke overgang?
‘Irion is een technologiebedrijf waar nieuwe en innovatieve producten worden ontwikkeld. Dat staat niet ver van de onderzoekswereld. In mijn huidige werk doe ik voornamelijk onderzoek en veel acquisitie van projecten; in veel opzichten lijkt dat op mijn oude baan. Bovendien werk ik nog steeds samen met veel bedrijven; sommige stammen nog uit mijn contacten uit de Irion-tijd. Wel is het perspectief bij mijn huidige werk meer de langere termijn; bovendien zijn de vragen uitdagender.’
Maakte die ervaring als CTO bij Irion Technologies het makkelijker om je huidige onderzoek meteen te vertalen naar praktische en wellicht commerciële toepassingen?
‘Bij een bedrijf kun je je niet beperken tot een deelprobleem: je moet een totaaloplossing bieden. Ik vind dat ook heel waardevol voor het onderzoek dat we nu doen. Het is belangrijk dat we problemen onderzoeken in een reële context met alle aspecten eromheen. Als je bijvoorbeeld onderzoek doet naar de betekenis van woorden in teksten, dan moet je dat zien vanuit de waarde die de tekst heeft voor een gebruiker. In feite heeft die tekst een bepaalde betekenis voor de gebruiker en niet alleen maar vanuit een algemeen theoretisch perspectief.’ ‘Veel evaluaties in de wetenschap zijn kunstmatig. Ik vind dat je veel meer leert over het probleem taal en betekenis door naar de effecten van communicatie (lees: schrijver-tekst-lezer/zoeker) te kijken. Waarom vind je wel of niet wat je zoekt en wat is de rol van meerduidigheid en vaagheid van taal in dat zoekproces? Dat is een heel ander perspectief op betekenis dan alleen te kijken naar de betekenissen die in een woordenboek staan.’
Analyse van big data en klassieke zoekmachinetechnologie lijken op het eerste gezicht niet heel veel gemeen te hebben. Welke rol speelt zoeksoftware niettemin bij de analyse van big data?
‘Het klopt dat big data en zoektechnologie voortkomen uit verschillende onderzoeksparadigma’s. Dat heeft volgens mij ook te maken met het probleem om de betekenis van tekst voldoende te kunnen formaliseren. Daarmee bedoel ik dat we niet alle informatie uit een tekst weten te vangen, bovendien worden er nog te veel fouten gemaakt bij het interpreteren van tekst. Tekstanalyse resulteert te veel in noisy en onvolledige data voor big data-analyse. Er moeten nog veel stappen gezet worden voordat big data en vrijetekstzoeken samenvallen.’ ‘Daarnaast wordt bij big data vaak niet gekeken naar natuurlijke manieren van vragen stellen. Het is niet zo eenvoudig om een zoekvraag te vertalen naar een SPARQL query waarmee big data bevraagd kan worden. Daar wordt nu onderzoek naar gedaan maar daarbij doen zich ook weer interpretatieproblemen voor.’
Wat doen jullie daar nu aan?
‘In onze projecten genereren we big data uit miljoenen teksten, bijvoorbeeld tien jaar nieuws over de autoindustrie. Dat levert miljoenen triples op, feiten en beweringen uit het nieuws. Om die big en noisy data te kunnen bevragen, draaien we statistische analyses op de data om te zien wat er nu in staat en hoe we interfaces kunnen maken zodat mensen die kunnen bevragen zonder zelf SPARQL queries te moeten formuleren. Dergelijke interfaces vallen vaak toch weer terug op gewoon zoeken via een index. Wat wij teruggeven als resultaat is echter wel anders. Dat heeft meer de vorm van gestructureerde data die je kunt weergeven in tabelvorm of als graaf – als een soort netwerk.’
Spelen de taalkundige en taaltechnologische methoden waarin je gespecialiseerd bent, een rol bij de analyse van alle soorten big data of geldt dat alleen voor heel speciale soorten?
‘De meeste big data is gestructureerd. Taal speelt daar voornamelijk een rol bij het weergeven van labels voor concepten en relaties. Bij ons speelt de technologie een rol bij het omzetten van tekst in gestructureerde data en, zoals al eerder gezegd, bij het bevragen van die data. De stappen zijn: 1. tekst naar RDF, 2. vraag naar SPARQL, 3. big data-gevolgtrekkingen, 4. RDF-resultaat, 5. resultaat presentatie. Taal en taaltechnologie spelen een rol bij de stappen 1, 2 en 5.’ De bezoekers van de VOGIN-IP-lezing zijn informatiespecialisten die vooral op het thema ‘zoeken’ afkomen.
Welke boodschap ga je hen meegeven?
‘Het probleem van tekstinterpretatie wordt zwaar onderschat. Tekst is vaag, incompleet, meerduidig, maar bevat tegelijkertijd vele complexe lagen aan informatie. Het zijn niet alleen feitelijkheden, maar vooral meningen, opinies en perspectieven van mensen op die feitelijkheden. Dat is een puzzel die we voorlopig nog niet opgelost hebben.’
Deze bijdrage komt uit IP nr. 1 / 2015. Het gehele nummer kun je hier lezen