Column: Over archieven en petabytes

Door: Eric Sieverts

Hoeveel een petabyte is, zou u waarschijnlijk niet geweten hebben als het Internet Archive niet net gevierd had intussen 10 petabytes te hebben opgeslagen. Voor wie dat nieuws gemist heeft: een petabyte is een miljoen gigabyte. En voor wie zich geen voorstelling kan maken van dat soort getallen: 10 petabyte is evenveel bytes als er seconden verlopen zijn in alle levens tezamen van alle nu levende Nederlandse vrouwen (of alle mannen natuurlijk). Overigens omvat dat Internet Archive nog heel wat meer dan alleen de bij veel informatieprofessionals bekende Wayback Machine. Of echte archivarissen dat ook allemaal ‘archief’ zouden noemen, weet ik niet.

‘Het’ archief was afgelopen maand overigens toch al in het nieuws, nu de fusie van KB en Nationaal Archief ineens (voorlopig?) niet blijkt door te gaan. Hoewel we al heel wat jaren verhalen horen dat bibliotheek en archief naar elkaar toegroeien, blijf ik in de praktijk nog altijd een flinke kloof zien. En dat betreft niet alleen de wettelijke aspecten die als voornaamste reden voor het uitstel van de KB-NA-fusie werden aangevoerd. Het gaat ook verder dan de verschillende manieren waarop archivarissen en bibliothecarissen aankijken tegen ontsluiten en toegankelijk maken van hun materiaal. Weblog ‘De bronnen van Clio’ analyseerde in dat verband wat er misging in andere landen die wel fuseerden.

Zelf proef ik altijd nog aanzienlijk verschil in algehele cultuur. Eerder dit jaar was ik bijvoorbeeld bij een symposium over het als open data beschikbaar stellen van erfgoedmetadata. Museum en bibliotheek zagen daar niet zoveel problemen om dat onder CC-0 te doen, een Creative Commons-licentie waarbij je zelfs niet eist dat gebruikers vertellen dat de gegevens oorspronkelijk bij jou vandaan komen. Maar een spreker uit de archiefhoek zag dat nog helemaal niet zitten.

Toch komt dat misschien nog goed. In het kader van ‘Hack de Overheid’ houdt Opencultuurdata.nl een hackaton waarbij iedereen wordt uitgenodigd apps en andere toepassingen te ontwikkelen, op basis van (meta)data die vanuit de erfgoedsector beschikbaar gesteld worden. Van de 35 datasets die nu op de lijst staan, blijken er vijf afkomstig van het Nationaal Archief en nog eens zes van regionale archieven. Maar drie van de 35 worden expliciet geafficheerd als afkomstig van een bibliotheek, waarvan twee van de KB.

Anderzijds is terughoudendheid van archiefzijde wel te begrijpen. Zij hebben immers veel privacygevoelig materiaal. En men wil voorkomen dat nog eens hele ladingen persoonlijke gegevens zomaar ongecontroleerd ergens anders terechtkomen. Zoals al die persoonsgegevens die de mormonen in het verleden hebben weten los te praten, om die onder in hun berg in Utah te digitaliseren. Om vervolgens al die ongelovige – althans niet-mormoonse – Nederlanders alsnog postuum te kunnen dopen, zodat ze voor het mormoonse hiernamaals gered worden. Hoeveel petabyte zouden die mormonen daar intussen hebben opgeslagen?

Eric Sieverts is redacteur van InformatieProfessional en freelance docent en adviseur.

Deze bijdrage komt uit IP nr. 11 / 2012. Het gehele nummer kun je hier lezen