Door: Eric Sieverts
In de prachtige art-decobioscoop Tuschinski bezocht ik vorige maand een ‘kaskraker’ over zoeken en over recall en precision. Wie had dat ooit kunnen denken? Maar het was ook een besloten voorstelling. Hoofdthema van de ook in IP aangekondigde Amerikaanse documentaire The Decade of Discovery was de problematiek van terugvindbaarheid van Amerikaanse overheidsinformatie. In de VS zitten daar nog veel meer juridische haken en ogen aan dan wij gewend zijn. Ivo Opstelten had er nog een boel van kunnen leren.
Tot mijn verrassing ging het ook uitgebreid over een legendarisch artikel van Blair & Maron uit 1985. Dat artikel over recall en precisie was in dertig jaar al weggezakt in mijn herinnering. Het beschrijft een onderzoek op een groot Amerikaans advocatenkantoor. De advocaten daar schatten zelf in dat ze in hun full-text zoeksysteem een recall van minstens 75 procent haalden. Het onderzoek wees uit dat het in de praktijk nog geen 20 procent was. Hun zoekacties misten domweg meer dan 80 procent van de voor hun zaken relevante documenten. In de Amerikaanse rechtspraktijk volstrekt onacceptabel. Simpele full-text zoeksystemen bleken dus niet de destijds verwachte panacee voor onze informatieproblemen.
Sponsor ZyLab had niet alleen de film naar Nederland gehaald en een zaal in Tuschinski afgehuurd, maar ook een van de hoofdpersonen uit de film als inleider laten overkomen. Deze Jason Baron was voormalig directeur van de ‘Litigation-support’-afdeling bij de U.S. National Archives and Records Administration die alle overheidsinformatie moet archiveren. Eerder dit jaar was hij volop in het (Amerikaanse) nieuws geweest met zijn commentaar op de Hillary-gate, de affaire rond de mailtjes van Hillary Clinton. Als minister van buitenlandse zaken had zij haar privémail ook voor staatszaken gebruikt.
In het Amerikaanse rechtssysteem is het volledig kunnen terugvinden van overheidsinformatie, inclusief e-mailcorrespondentie, een heilige graal geworden, zowel ten behoeve van een slagvaardige overheid, als voor het recht van burgers op toegang tot alle digitale informatie. Om Blair & Maron-problemen te voorkomen hebben de National Archives strenge regels opgesteld voor de daarbij te gebruiken zoeksoftware en voor een open XML-formaat om alles te structureren – ook de mail. Dat ZyLab daar een belangrijke rol in speelt, werd maar tussen neus en lippen door aangestipt.
Hoe grootschalig dat is, werd geïllustreerd door cijfers over de e-mailcorrespondentie van het Witte Huis. Onder Bill Clinton – de ‘Clinton-administration’ – waren hooguit 30 miljoen mailtjes geproduceerd die de moeite waard waren gearchiveerd te worden, van de Bush-administration waren dat er al 200 miljoen en voor de Obama-administration wordt op ruim meer dan een miljard gerekend. Hoeveel zullen dat er onder Hillary dan wel niet worden? Opdat die terugvindbaar blijven, moet zij dan natuurlijk wel de goede mailserver gaan gebruiken.
Eric Sieverts is redacteur van IP en freelance docent en adviseur.
Deze bijdrage komt uit IP nr. 5 / 2015. Het gehele nummer kun je hier lezen