Column: Ontsluiting terug van weggeweest

Door: Eric Sieverts

Ontsluitingssystemen als thesauri en classificaties zijn een beetje uit de mode geweest. Net als gestructureerde databases. Met Google kun je immers alles vinden, ook als informatie niet gestructureerd en niet ontsloten is. In dat perspectief is het opmerkelijk dat juist Google de laatste jaren het roer heeft omgegooid. Ze kunnen natuurlijk nog altijd goed in ongestructureerde informatie zoeken, maar daarnaast leggen ze meer nadruk op semantiek. Semantiek door structuur en door wat wij ontsluiting plegen te noemen. Liefst verwerkt in ‘gestructureerde markup’ in HTML-code.

In ongestructureerde informatie worden trouwens ook zogenaamde ‘impliciete’ entiteiten herkend. Zowel Google als Bing gebruikt daarvoor gestructureerde kennissystemen. Bij Google beperkt zich dat niet meer tot de Knowledge Graph, met gestructureerde data uit onder meer de Wikipedia (de DBpedia). Als aanvulling is er nu ook een ‘Knowledge Vault’ met kennis die via slimme technieken – Probabilistic Knowledge Fusion – uit ongestructureerde bronnen wordt geëxtraheerd. Dat ‘probabilistic’ wil zeggen dat van elk gegeven een waarschijnlijkheid wordt berekend dat het waar is, en ‘fusion’ dat gegevens uit allerlei bronnen gecombineerd worden. Zo kan steeds meer betekenis in webpagina’s worden achterhaald.

Terug naar de expliciete ontsluiting die in webpagina’s wordt gebruikt. Een geaccepteerde standaard daarvoor is Schema.org, een soort universele thesaurus die vooral door de grote zoekmachines Google, Bing, Yahoo en Yandex ontwikkeld en ondersteund wordt. Ik noem het hier wel een thesaurus, maar dat is het niet echt. Je markeert hiermee de betekenis van al in webpagina’s voorkomende namen, woorden, getallen en dergelijke. Dat iets de naam van een acteur is, dat dit de prijs van de getoonde camera is, dat dit de tijdschriftaflevering is, waarin een artikel is verschenen. Ja, ook bibliografische gegevens kunnen sinds vorige maand met Schema.org gecodeerd worden, door een aanvulling met ‘Support for Bibliographic Relationships and Periodicals’.

Dat ik Schema.org een soort thesaurus noemde is overigens niet zo gek, want de daarin gedefinieerde entiteiten zitten in hiërarchische boomstructuren. Maar het gaat nog een stapje verder, want je kunt ook relaties markeren tussen in een webpagina aanwezige entiteiten. En sinds kort kunnen die zelfs ‘rollen’ toebedeeld krijgen. Daarmee begint Schema.org op een echte ontologie te lijken. Nu noemen semantisch web enthousiasten eigenlijk alles al een ontologie. Alles wat structuur aanbrengt, en alles wat betekenis en betekenisrelaties vastlegt; dus zeker Schema.org, maar ook onze klassieke thesauri en classificaties.

Wordt al die codering nu al veel in webpagina’s toegepast? In 36 procent van de resultaten van Google-zoekacties schijnen ze voor te komen. Overigens een misleidend percentage, want aanwezigheid van codes bevordert ook hogere ranking. Ook een goede reden die markup toe te voegen. En uiteraard niet handmatig, want gegevens komen toch al bijna altijd uit een gestructureerde database of CMS, zodat de codes automatisch gegenereerd kunnen worden. Thesauri, classificaties en ook gestructureerde databases zijn dus weer helemaal terug van weggeweest. Al zitten er nu andere modieuzere etiketjes op.

Eric Sieverts is redacteur van IP en freelance docent en adviseur.

Deze bijdrage komt uit IP nr. 7 / 2014. Het gehele nummer kun je hier lezen