Dat zoeken we op: WikiLeaks

Op WikiLeaks staan zulke grote hoeveel heden berichten dat je wel een zoekmachine nodig hebt om daar iets in te vinden. IP’s zoektester had zelf nog nooit behoefte gehad om interessante gelekte berichten uit Julian Assange’s openbare depot op te duiken. Maar nu hij zich daarin verdiept heeft, is hij aangenaam verrast over de zoekmogelijkheden die worden geboden.

Door: Eric Sieverts 

Op de WikiLeaks-homepage kun je meteen al zoeken. Daarnaast is er ook een op land geordende directe toegang tot ‘archieven’ uit 2006-2010. Onder ‘Netherlands’ vind je daar 78.489 documenten. Boven het zoekvenster en ook op de echte zoekpagina zijn de letters W-i-k-i-L-e-a-k-s in de bekende vrolijke Google-kleuren uitgevoerd. Dat kleurgebruik wordt door Google kennelijk gedoogd.

Het zoekscherm oogt ook Google-simpel, maar wel met een in het oog springende knop die een geavanceerd zoekscherm oproept. Zo heel geavanceerd blijkt dat overigens niet te zijn. Er zijn extra vakjes voor woorden die je wilt uitsluiten, voor woorden die in titels moeten voorkomen en voor woorden die juist in de documenttekst zelf moeten staan. Verder kun je vooraf nog inperken op wat deelcollecties, waarover direct meer.

Het echt geavanceerde zie je pas als je de link ‘More ways to filter the search’ aanklikt. Maar dit ‘filteren’ moet je verder helemaal zelf doen; lekker zelf alle operatoren en syntax intikken. Aanklikken van de Advanced Search-knop vanuit het zoekscherm stuurt onbedoeld een lege zoekvraag mee. Dat leidt tot een waarschuwing, maar het laat ook meteen zien dat er 8.766.122 documenten in het systeem zitten.

Uitgebreide zoeksyntax

De zoeksyntax die ter beschikking staat is ongemeen uitgebreid. Niet alleen Booleaanse combinaties (met eigen symbolen voor OR en NOT) en exacte phrases, maar ook zoeken in velden (weer alleen titel of documentinhoud), zoeken binnen de eerste X woorden van het document, nabijheidsoperatoren, woorden in zelfde zin, woorden in zelfde alinea, volgordeoperator (ene woord voor het andere), quorum-operator (hoeveel van de ingetikte zoekwoorden minimaal moeten voorkomen) en zoekwoord aan het begin of juist aan het eind van een titel of documenttekst (een soort reguliere expressies).

Verder kun je al die syntax naar hartelust combineren tot zeer complexe queries. Truncatie wordt nergens genoemd, maar blijkt met een * ook gewoon mogelijk. Hiermee kan WikiLeaks zich makkelijk meten met gespecialiseerde zoeksystemen als LexisNexis of Ovid. WikiLeaks doet niet aan parametric search. Je kunt alleen (vanuit het geavanceerde zoekscherm) vooraf aangeven dat je in bepaalde deelcollecties wilt zoeken, zoals ‘Iraq War Logs’, ‘Kissinger Cables’, ‘Guantanamo Files’ en nog vele andere. Voor de presentatievolgorde van een zoekresultaat kun je kiezen tussen relevantie, documentdatum of datum van publicatie op WikiLeaks. Voor de relevantievolgorde lijkt het voorkomen van woorden in titels de belangrijkste parameter te zijn.

Meeste ook in Google

De inhoud van de site is ook met Google te doorzoeken door site:wikileaks.org aan een zoekvraag toe te voegen. Op identieke simpele zoekvragen blijk je niet altijd precies dezelfde resultaten te krijgen als in WikiLeaks zelf. Deels komt dat doordat Google automatisch van alles met je zoekwoorden doet (zoals zoeken op woordstammen en synoniemen). Maar ook als je Google ‘Verbatim’ laat zoeken, blijven er vaak kleine onverklaarbare verschillen, de ene of de andere kant op. Maar bij Google mis je natuurlijk wel die geavanceerde zoeksyntax die WikiLeaks’ eigen zoekmachine biedt. En omgekeerd moet je de dingen die Google automatisch doet, bij WikiLeaks zelf bedenken en in je zoekvraag verwerken.

Voor professionals die graag zelf allerlei functionaliteit willen inzetten om nog iets preciezer te zoeken, is WikiLeaks dus een waar eldorado. Maar daarvoor moet je je wel goed in de te gebruiken syntax verdiepen.


URL search.wikileaks.org
Booleaans combineren   ja (+ zeer uitgebreide syntax)
Truncantie   ja
Speciale zoekvelden   ja (titel, documenttekst)
Advanced zoekscherm   ja
Parametrische filters   nee (wel vooraf te filteren)
Ook in Google   ja
Semantische markup   nee

 


 

Eric Sieverts is redacteur van IP en freelance docent en adviseur.

Deze bijdrage komt uit IP nr. 4 / 2015. Het gehele nummer kun je hier lezen