Door: Eric Sieverts
Dit jaar wordt hier en daar groots gevierd dat George Boole tweehonderd jaar geleden werd geboren. Dat ‘daar’ is nog niet eens zozeer in zijn Engelse geboortestadje Lincoln, maar vooral in het Ierse Cork. Daar heeft Boole met zijn baanbrekende werk de lokale universiteit op de kaart gezet, in een tijd dat daar nog geen Times Higher Education university rankings voor nodig waren. Vanaf 1849 was hij daar hoogleraar. Boole was inderdaad de man waar onze huidige Booleaanse operatoren naar genoemd zijn. Hoewel hij nog veel meer wiskundigs op zijn geweten heeft, zoals ontdekkingen op het gebied van differentiaal vergelijkingen en de waarschijnlijkheidsrekening, kennen wij hem natuurlijk vooral van zijn aanzet tot de verzamelingenleer. Onze AND- en OR-relaties zijn voortgekomen uit het doorsnijden en verenigen van die verzamelingen.
Maar juist op die Booleaanse combinaties wordt door de grote geesten van de information retrieval tegenwoordig nogal neergekeken. In 1999 op de allereerste IP-lezing – de voorloper van de huidige VOGIN-IP-lezingen – hadden we Keith van Rijsbergen als keynote spreker uitgenodigd. Deze van oorsprong Nederlandse informaticus was (en is) de goeroe van de theorie van de information retrieval. In een interview dat we hem na zijn lezing afnamen, sprak hij de legendarische woorden ‘Het Booleaanse model is natuurlijk vreselijk’. Op zich niet zo gek dat hij die mening verkondigde, want hij komt uit de Cambridge school van Karen SpärckJones, bedenkster en boegbeeld van de probabilistische zoekmethode. Die techniek achtte hij dan ook verreweg superieur aan dat domme Booleaanse combineren.
Al tijdens het interview begon ik Van Rijsbergen voorzichtig tegen te spreken. Want zestien jaar geleden was onze zoekpraktijk nog bijna helemaal gebaseerd op AND, OR en NOT. Erg veel indruk maakte mijn tegensputteren uiteraard niet. Toch is het in de praktijk niet zo zwart-wit als Van Rijsbergen het toen voorstelde – nu nog steeds niet. Wij plegen nog altijd vrolijk Booleaanse combinaties te gebruiken, ook bij Google, soms zelfs zonder dat we ons daarvan bewust zijn. Maar tegelijkertijd is de ranking van zo verkregen resultaten wel gebaseerd op die superieur geachte probabilistische technieken – nu bij Google, maar zestien jaar geleden bij AltaVista en Lycos ook al.
Ook in Cork schamen ze zich allerminst voor de bijdrage die George Boole aan de verzamelingenleer heeft geleverd. Breed wordt daar uitgemeten dat zijn wiskundige ontdekkingen aan de basis hebben gestaan van ons complete digitale tijdperk. En inderdaad, in relationele databases wil je liever niet dat resultaten van SQL-queries op probabilistische wijze tot stand komen. Maar daarnaast is het een geluk dat George Boole toch ook nog iets aan waarschijnlijkheidsrekening heeft gedaan. Zo kunnen we proberen om zelfs dat probabilistische zoekmodel nog een heel klein beetje op zijn conto te schrijven.
Eric Sieverts is redacteur van IP en freelance docent en adviseur.
Deze bijdrage komt uit IP nr. 4 / 2015. Het gehele nummer kun je hier lezen