Terugblik VOGIN-IP-lezing: zoeken is nooit meer zoals het was

Dat was een van de motto’s waaronder de VOGIN-IP-lezing op 28 februari jl. in de Brakke Grond te Amsterdam werd aangekondigd. Dat de wereld van het zoeken meer dan ooit aan veranderingen onderhevig is, bleek inderdaad uit alle vijf lezingen in het middagprogramma. Phil Bradley beweerde dat er nu betere manieren zijn om aan informatie te komen dan Google. Antal van den Bosch liet zien hoe text-mining het zoeklandschap kan veranderen. Rinke Hoekstra benadrukte de groeiende rol van onderzoeksdata op het web. Joost Janssen betoogde dat de klassieke enterprise search tot mislukken gedoemd is. En Henk van Ess toonde ons de komst van een niet zo aanlokkelijke sociale zoekwereld die nogal op gespannen voet staat met onze privacy. 

Door: Alice Doek, Alice de Jong, Eric Sieverts en Ans ter Woerds

Phil Bradley: ‘Zoekresultaten gebaseerd op “likes” voelen betrouwbaarder aan’

Door: Alice de Jong

Na een drukbezochte workshop ‘Zoeken op internet voor gevorderden’ in de ochtend, gaf de Britse zoekgoeroe Phil Bradley tijdens het middagprogramma van de VOGIN-IP-lezing ook nog een keynote. Zoeken op internet is niet meer wat het geweest is, constateerde Bradley in zijn lezing. Stonden vroeger veel meer verschillende zoekmachines tot onze beschikking, nu gebruiken we bijna alleen nog maar Google. Niet helemaal tot tevredenheid, want Googles zoekresultaten lijken slechter dan vroeger en wat bovenaan komt, lijkt Google ook niet echt uit te maken. Hoewel de zoekgigant weinig hulp biedt bij het beoordelen van betrouwbare resultaten, lijkt het gemak waarmee we iets kunnen vinden overal tegenop te wegen.

Zoekmachines willen echter niet alleen helpen zoeken, ze willen het antwoord zijn op alles. Daarom werkt Google met gepersonaliseerde resultaten en bepaalde aannames, ook als je daar niet om hebt gevraagd. Een voorbeeld: bij een zoekactie vult Google onze termen aan – of verbetert ze zelfs. Eigenlijk komt het erop neer dat Google niet wil dat wij goed kunnen zoeken. Want hoe langer we op de zoeksite bezig zijn, hoe meer advertenties we onder ogen krijgen en hoe interessanter wij worden voor dit commerciële bedrijf. De traditionele zoekmachine die webpagina’s doorzoekt, staat op het punt te verdwijnen. Wij hebben ons allemaal ‘bekeerd’ tot het sociale web en daarom wordt het doorzoeken van juist die sociale data de komende tijd interessant. Bradley voorspelt dat zoekresultaten gebaseerd op de ‘likes’ (voorkeuren) van vrienden betrouwbaarder zullen aanvoelen dan de algoritmes van Google. Maar deze strijd is pas net losgebarsten, met grote concurrent Facebook aan de andere kant – en wijzelf als pionnen in dit spel.

Meer dan ooit zijn betrouwbare bronnen en autoriteiten op een bepaald gebied van belang. We kunnen beter vertrouwen hebben in onze vriendenkringen op het sociale web dan in een anonieme zoekmachine, aldus Bradley. Maar dan is het wel van belang om precies te weten waar op internet juist die betrouwbare informatieprofessionals te vinden zijn, en moeten we zelf actief meedoen en elkaar daarbij steunen.

Antal van den Bosch: ‘Met text-mining voorspellingen doen’

Door: Alice Doek

Antal van den Bosch, hoogleraar taal- en spraaktechnologie aan de Radboud Universiteit Nijmegen, onderzoekt hoe computers taal kunnen leren begrijpen en genereren. Hij liet aan de hand van een pagina uit een Japans boek de kloof zien tussen tekst (rauw) en informatie (zo gaar als je het hebben wilt).

Taal is rijk en productief en een heel geschikte schuilplaats voor informatie. Om greep te krijgen op informatie die in geschreven en gesproken tekst verborgen zit, zijn de afgelopen twintig jaar text data mining-technieken ontwikkeld. Een aantal aansprekende geesteswetenschappelijke voorbeelden passeerde de revue.

Stel dat een historicus zich wil verdiepen in de oorzaken van stakingen die niet doorgingen in de eerste helft van de twintigste eeuw. Als eerste moet hij daarvoor weten om welke gevallen het ging. De gedachte aan de Stakingendatabase van het IISG komt op, met informatie over 17.000 stakingen die in Nederland hebben plaatsgevonden. Heel nuttig, maar stakingsdreigingen die op het laatste moment werden afgewend komen hier niet in voor. De methode die de groep van Antal van den Bosch toepaste om dit probleem aan te pakken, is gebaseerd op bags of words: verzamelingen van woorden zonder interne samenhang zoals woordvolgorde en grammatica.

Aan de hand van de IISG-Stakingendatabase wordt in de KB Krantendatabase eerst gezocht naar krantenartikelen over de stakingen die wel plaats hebben gehad. Daaruit worden drie bags of words gevormd: een uit de week voorafgaand aan de staking (met woorden als acties, ultimatum, rijksbemiddelaar), een uit de stakingsperiode zelf (conflict, werkwilligen, posteren) en een van de week na de staking (eisen, ingewilligd, loonsverhoging). Vervolgens wordt de KB Krantendatabase opnieuw doorzocht; nu via een ingewikkelde query naar het vóórkomen van de eerste bag of words zonder dat daar de tweede en de derde bags op volgen. Grote kans dat het hier gaat om stakingen die niet doorgingen. Diezelfde technieken kunnen vervolgens ook worden toegepast om, door analyse van berichten in social media, tot voorspellingen te komen over wat er staat te gebeuren.

Rinke Hoekstra: ‘Linked Science: dweilen met de kraan open?’

Door: Eric Sieverts

Rinke Hoekstra, werkzaam bij de ‘Knowledge representation and reasoning’-groep van Frank van Harmelen aan de VU én bij de rechtenfaculteit van de UvA, hield ons voor dat beschikbaarheid en behoud van onderzoeksdata goed is voor de innovatieve kracht van een land. In een innovatieranglijst stond Nederland nu nog negende. Dat zou beter kunnen.

Die onderzoeksdata wordt alleen wel erg veel. Dat handmatig te moeten beheren en bijhouden, is dweilen met de kraan open. Toch wil de Linked Science-beweging wetenschappelijke gegevens onderling koppelen en zo transparant, reproduceerbaar en interdisciplinair onderzoek versterken. Wetenschappelijke artikelen zijn onderling al via citaties gekoppeld. Waar ze over gaan zit in tekst verborgen en is niet makkelijk expliciet te maken. Wel bevatten ze vaak rijke metadata, zoals een beschrijving van toegepaste methoden en technieken. Maar ze zijn vaak te veel een samenvatting om beschreven onderzoek te kunnen reproduceren.

Dataverzamelingen horen ook bij de wetenschappelijke output. De connecties tussen die data zijn vaak wel expliciet te maken (al is dat duur). Maar die data zijn vaak opgeslagen zonder hun context (zoals de daarop gebaseerde artikelen). Je zult publicaties dus expliciet moeten laten linken naar onderliggende data. En van die data moet je linked data maken, waarbij alles een webadres krijgt en alles aan alles gelinkt kan worden.

Als voorbeeld noemt Hoekstra de Nederlandse wetgeving die hij in 266.685.615 RDF-tripels uiteengerafeld heeft. Meestal betreft dit soort voorbeelden nog eenmalige projecten. Eigenlijk wil je dat onderzoekers zelf iets met hun data doen. Maar bijhouden van je eigen publicaties is al zo veel (en vervelend) werk; laat staan dat je dat ook nog eens voor al je onderzoekgegevens moet doen. Hoekstra wil daarvoor gebruik maken van web 2.0-achtige annotatietechnieken en ook van automatisch gegenereerde herkomst- en updategegevens van diensten als Dropbox, die toch al in de workflow van onderzoekers zitten. Koppel dat vervolgens aan linked data-bronnen als DBpedia, Crossref enzovoort. En laat dan bijvoorbeeld ook nog analyses los op de relaties die er zijn tussen individuele cellen in complexe spreadsheets. Dergelijke technieken kunnen onderzoekers ondersteunen om hun eigen data te verrijken.

Joost Janssen: ‘Niet content maar conversation is king’

Door: Ans ter Woerds

De stelling waarmee Joost Janssen zijn lezing begint, is geen optimistische: ‘Enterprise search is zijn belofte niet nagekomen; niet binnen PwC maar ook niet binnen andere met PwC vergelijkbare kennisorganisaties.’

Janssen is Online Channel Manager bij de afdeling Marketing & Knowledge Management van PwC (PricewaterhouseCoopers) en verantwoordelijk voor de interne systemen gebaseerd op communicatie-, informatie- en kennistechnologie. PwC is een internationale organisatie in de zakelijke dienstverlening met wereldwijd ruim 180.500 mensen in dienst. In Nederland werken zo’n 4700 professionals, verdeeld over 12 vestigingen. Dienstverlening wordt verricht op het gebied van accountancy, belastingadvies en consultancy.

PwC is een typische kennisorganisatie. Marktkennis, klantkennis, vaktechnische kennis (zoals wet- en regelgeving) en kennis van de PwC-organisatie moeten voor de PwC-professionals makkelijk toegankelijk zijn. Het is dan ook de uitdaging om de enorme potentie van de collectieve intelligentie van PwC te ontsluiten; alleen dán benut PwC haar schaalgrootte. Gedurende zijn loopbaan bij PwC heeft Janssen veel energie gestoken in het verkopen van de business case voor enterprise search. Dit is echter niet gelukt. Redenen hiervoor zijn: het applicatielandschap met eigen zoekfuncties is veel te divers (>100), actualiteit, relevantie en betrouwbaarheid van bronnen zijn per applicatie anders, de technologische ontwikkelingen gaan heel snel, wet- en regelgeving voor privacy en gebruik zijn per land verschillend en het is moeilijk de Return on Investment van de business case te verkopen.

Daarom richt PwC zich nu dan ook op een enterprise social media platform. Niet content maar conversation is king. Dit internationaal uitgerolde platform, Spark, speelt in op de laatste SoLoMo – sociaal, lokaal, mobiel – trends. Iedere zoekopdracht binnen Spark geeft resultaten in de categorieën ‘mensen’, ‘content’, ‘communities’ en ‘activiteiten’. Twijfel je aan de relevantie, actualiteit en betrouwbaarheid van zoekresultaten, dan heb je altijd genoeg context om verder te zoeken.

In 2008 ontving PwC de prestigieuze internationale MPF Award voor het interne Nederlandse nieuwsplatform SPiN (Smart Provider of Information & News). Het daarna internationaal doorontwikkelde nieuwsplatform Pulse, onderdeel van Spark, is opnieuw genomineerd voor de MPF Award.** Pulse biedt geprofileerde attenderingen over duizenden verschillende onderwerpen, waarbij met geavanceerde zoektechnologie realtime duizenden nieuwsbronnen doorzocht worden.

Henk van Ess: ‘Nu wordt het persoonlijk!’

Door: Alice de Jong

Henk van Ess, bekend internetdocent en onderzoeksjournalist, verrast zijn publiek door zijn lezing te beginnen met een ‘afsluitend vragenrondje’. De vraag die hij wil beantwoorden is wanneer de borrel begint, en zo haakt Van Ess gelijk in op dé internettrend: alles wordt persoonlijk. Grote bedrijven als Google, Apple en Facebook hebben door smartphones en tablets de beschikking gekregen over heel veel persoonlijke informatie. Die is heel waardevol, want deze bedrijven weten dat er veel nieuwe diensten te bouwen zijn door het koppelen van persoon, locatie, moment en behoefte.

Om dit toe te lichten vertelt Van Ess over zijn ervaringen met twee nieuwe diensten die hij alvast exclusief mocht uitproberen: Google Now en Facebook Graph.

Bij de demo van Van Ess blijkt dat Google Now allerlei informatie uit je online agenda en e-mail haalt en op grond daarvan conclusies trekt. Bij een (test)afspraak krijg je een waarschuwing dat het tijd is om te vertrekken omdat er onderweg files worden verwacht. Als je vervolgens treuzelt en Google Now vreest dat je te laat zal komen, kan hij na een enkel stemcommando (‘reschedule’) vanzelf mailtjes versturen om de afspraak te verzetten of af te gelasten. Maar er gebeuren ook vreemde dingen: als je vaak dezelfde route rijdt tussen huis en werk blijkt hij die ergens standaard in te stellen, waarna hij begint te piepen als je van die route afwijkt! Google Now laat een lijstje zien van ‘photo spots’ in de buurt, hij vertelt wanneer de film gaat beginnen en hij waarschuwt je als je vrienden jarig zijn. Zo is Google je altijd net een stapje voor. Willen we dat wel?

Facebook Graph zal, zo denkt Van Ess, in de EU verboden worden vanwege de privacywetgeving. Van Ess heeft deze nieuwe zoekdienst van Facebook, die in bètaversie alleen nog in de Verenigde Staten te gebruiken is, mogen uittesten. In zijn presentatie komt hij met een paar sterke staaltjes van verregaande zoekmogelijkheden. Je kunt alle foto’s van mensen die in Amsterdamse bibliotheken geweest zijn, bij elkaar zetten. Dan kan je kijken welke mensen bijvoorbeeld weduwnaar zijn of gescheiden zijn. Welke toeristische bestemmingen vinden deze mensen leuk? Verrassend genoeg kan je dus ook groepen mensen doorzoeken die zich niet in je vriendenkring bevinden. En dus kun je ook zoeken op de favoriete bars van mensen die én bij De Nederlandsche Bank werken én van wapens houden.

Het is natuurlijk makkelijk om deze nieuwe diensten af te kraken, maar het grootste bezwaar is volgens van Van Ess dat Google Now en Facebook Graph een soort schijnzekerheid geven. De resultaten hoeven totaal niet te kloppen met de werkelijkheid, het geven van een reactie is niet mogelijk en het is behoorlijk privacygevoelig. Wat je zoekt ben je zelf, maar de favoriete knop bij Van Ess is nu die welke ‘verbatim’ heet bij Google. Hij wil het graag zelf bepalen.

*Bij het ter perse gaan van dit nummer werd bekend dat het nieuwsplatform Pulse voor de tweede keer de MPF Award heeft gewonnen. PwC won deze prijs in de categorie ‘Best collaboration across international frontiers’.


Lees verder

Presentaties van de workshops en lezingen zijn te vinden op vogin-ip-lezing.net/terugblikslides/.


Alice Doek, Alice de Jong, Eric Sieverts en Ans ter Woerds zijn redacteur van InformatieProfessional.

Deze bijdrage komt uit IP nr. 3 / 2013. Het gehele nummer kun je hier lezen