Door: Geert-Jan van Bussel
Archivarissen en bibliothecarissen zijn vol van digitale duurzaamheid. Ze hebben het over een ‘Digital Dark Age’ en over de technologie die dat veroorzaakt en moet oplossen. De aandacht voor het voortbestaan van informatie is terecht, zeker voor wat betreft het dynamische internet. Het web is immers voor het ‘nu’. Een gemiddelde web pagina verdwijnt volgens schattingen na 100 dagen.
Juist dat dynamische karakter van het web schept uitdagingen. Websites en -pagina’s kunnen onzichtbaar worden zonder dat ze door bijvoorbeeld de Wayback Machine zijn vastgelegd. De belangrijkste reden is verwaarlozing door de eigenaren, waaronder het niet verlengen van domeinregistraties, het veranderen van URL’s, het niet maken van backups, het niet betalen van de webhosters of het wissen of overschrijven van bestanden. Concurrentie tussen webgiganten als Google, Microsoft en Yahoo! leidt tot agressieve verwerving van populaire webdiensten, die dan worden verlaten, opgeheven of opgenomen in grotere platforms, met het onzichtbaar worden van webcontent als gevolg. Het niet hebben van backups blijkt dan funest. Webarchiveringsdiensten, zoals The Internet Archive, kunnen door de rechter verplicht worden om websites, -pagina’s of content te verwijderen. Onzichtbaar worden heeft veelal niets te maken met technologie.
Datzelfde geldt voor hyperlinks, die door het onzichtbaar worden van webpagina’s nutteloos worden. Bij ‘link rot’ kan de hyperlink de betreffende webpagina niet meer vinden, bij ‘reference rot’ is de (nog steeds zichtbare) webpagina gewijzigd. In een analyse uit 2014 van de Chesapeake Digital Preservation Group blijkt dat 51 procent van de URL’s vanaf 2007 niet meer beschikbaar is. Meer dan 70 procent van de URL’s in drie juridische tijdschriften van Harvard lijdt aan ‘reference rot’. Het is te vermijden, zonder afhankelijk te zijn van de website waarnaar de link verwijst: archiveer de bron waarnaar de link verwijst bij bijvoorbeeld WebCite.org of zorg voor een Digital Object Identifier. De content is dan met een unieke sleutel altijd terugvindbaar.
Als een website of webpagina verdwijnt betekent dat niet dat alle content verdwenen is. In bijna alle gevallen bestaat die nog steeds binnen de infrastructuur van de website-eigenaar, maar is de toegankelijkheid via het web verdwenen. Dat wil niet zeggen dat informatie niet daadwerkelijk kan ‘verdwijnen’. Dat heeft meestal niets te maken met de beperkte duurzaamheid van de technologie. Data Recovery heeft zich dusdanig ontwikkeld, dat bijna alles reconstrueerbaar is, al kost dat (erg) veel geld. David Rosenthal, van Stanford University, stelt dat de reden voor het verdwijnen van informatie niet primair technologisch is, maar vooral te maken heeft met menselijke fouten, afwegingen en handelingen.
Die menselijke factor wordt nooit benoemd in discussie over duurzaamheid. Het wordt tijd dat die discussie niet alleen gaat over technologie, maar ook over de rol van de professional. Duurzaamheid is een menselijk fenomeen.
Geert-Jan van Bussel is ondernemer en lector Digital Archiving & Compliance bij de Hogeschool van Amsterdam.
Deze bijdrage komt uit IP nr. 8 / 2015. Het gehele nummer kun je hier lezen.