Interview met Herbert Van de Sompel: ‘Dat je het web níét zou willen archiveren, dat is waanzin’

Niemand, met uitzondering misschien van Internet Archive-oprichter Brewster Kahle, heeft zoveel gedaan voor het geheugen van het web als Herbert Van de Sompel. Hij deed dat in de relatieve anonimiteit van de Los Alamos National Laboratory (LANL) van de Amerikaanse overheid, waar natuurkundige Robert Oppenheimer in de oorlogsjaren de atoombom ontwikkelde. Wie is deze gedreven en aimabele Gentenaar, en hoe kijkt hij tegen wetenschappelijke communicatie via het web anno 2016 aan?

Door: Frank Huysmans

Een opgeruimde Belg arriveert tegen kwart voor zeven in de avond in het speciaalbierencafé aan, hoe kan het ook anders, de Bierkade in Den Haag. Van de Sompel is een aantal keer per jaar te gast bij Data Archiving & Networked Services (DANS), gehuisvest in de Hofstad.
Onder zijn jas gaat een t-shirt schuil met het logo van ‘Los Pollos Hermanos’, de kipfrituurketen uit de tv-serie Breaking Bad. De serie werd opgenomen in de staat New Mexico waar Van de Sompel woont (Santa Fe) en werkt (Los Alamos). En waar hij qua speciaalbier niets tekortkomt: ‘Halverwege thuis en werk, een rit van drie kwartier waar ik soms niet één andere auto tegenkom, is een zaak waar ze heel veel soorten hebben, meer dan in vele cafés.’

Open Archives Inititative en Open Access

Hoe ben je in Los Alamos terechtgekomen?

‘In 1998 kreeg ik een beurs van het Belgische Fonds Wetenschappelijk Onderzoek om een doctoraat te gaan doen. Ik werkte toen al vijftien jaar in de bibliotheekautomatisering aan de Universiteit Gent. Toeval of niet, ik ben toen met een oplossing gekomen voor open linking tussen de verschillende knooppunten in de wetenschappelijke omgeving op het web. We noemden het SFX, “special effects”. In Los Alamos kon ik daarvoor een groot experiment doen. Daar was op dat moment de beste digitale bibliotheek ter wereld.’

Een van de eerste dingen die je in Los Alamos aanpakte was het Open Archives Initiative, dat in weerwil van de naam vooral met bibliotheken en open access te maken heeft. Hoe is dat begonnen?

‘In de vroege dagen van de open access-beweging, begin jaren negentig, had je twee denkscholen. Eén ervan was die van Paul Ginsparg, met wie ik in Los Alamos samenwerkte. Dat ging over preprints, de eerste versie van artikelen nog voor ze zijn beoordeeld door vakgenoten. Die werden in een open repository gedeponeerd. Dit was eigenlijk een technologische reïncarnatie van een traditie die al lang bestond in de fysica: onderzoekers stuurden elkaar papieren preprints zodat ze alvast op de hoogte waren van elkaars vindingen. Of de preprints ooit gepubliceerd zouden worden in een tijdschrift, maakte verder niet zoveel uit.’

‘De andere school was die van Stevan Harnad. Voor hem was het juist cruciaal dat het artikel eerst door het hele systeem van peer review ging, en pas daarna kon je het via ftp verspreiden en op je eigen website zetten.’

We hebben het dan over die vorm van open access die nu ‘green’ genoemd wordt: het zelf archiveren van papers door onderzoekers.

‘Ja, de Ginsparg- en Harnad-aanpakken staan nu beide bekend als “green”, hoewel er een verschil van dag en nacht is tussen de twee. Ik heb in de periode vóór Los Alamos ook veel economische literatuur gelezen. Toen ik dat allemaal samenbracht, was de enige conclusie die ik kon trekken dat we alle essentiële functies van het publicatiesysteem apart moesten gaan behandelen.’

‘De eerste functie is registratie van het idee: “ik ben de eerste die het heeft bedacht”. Dat is de functie die preprintservers als arXiv.org nog altijd hebben: er wordt een tijdstempel op gezet én iedereen kan het gaan lezen. Vervolgens heb je certification, het plaatsen van een kwaliteitsstempel erop door middel van peer review. En de derde functie is de archivering.’

‘In een papieren omgeving moest je al die functies bundelen, het ging niet anders. In de digitale omgeving is bundeling echter niet meer nodig. Ginsparg en ik hadden twintig jaar geleden allebei dat inzicht. En nu denk ik er nog steeds zo over. De basis is de preprint. De idee is er, en iedereen kan er kennis van gaan nemen. Dat het nog niet de kwaliteitsstempel heeft van peer review, is secundair.’

Toch is het anders gelopen.

‘Ja, en daarvoor zijn, denk ik, twee redenen. Ten eerste is de Harnad-school zeer invloedrijk. En ten tweede waren én zijn uitgevers, bibliotheken en wetenschappers getrouwd met het bestaande systeem waarin er geen vrije toegang tot artikelen is.’

‘In het geval van uitgevers is dat goed te begrijpen, want hun voortbestaan hangt af van handhaving van de status quo. Voor bibliotheken is het minder vanzelfsprekend, maar ze zijn van nature traditioneel en behoudsgezind. Uitgevers hebben daar handig op ingespeeld, bijvoorbeeld door conceptuele vernieuwing af te remmen en door toonaangevende “super librarians” voor hun karretje te spannen.’

‘Van de derde groep, de wetenschappers, wordt door hun werkgevers verwacht dat ze prestige opbouwen. Alweer: een behoudsgezinde instelling – “we doen het al vele decennia zo, dus we hebben er geen belang bij om het te veranderen”. Bovendien zijn wetenschappers ook ijdel: ze willen met hun naam in een prestigieus tijdschrift.’

‘Dus je hebt drie partijen die er belang bij hebben de status quo te bestendigen. Ik blijf geloven in preprints omdat die naast de bestaande structuren kunnen bestaan. Als ik me niet vergis, kunnen we een heropleving van de idee van preprints in de biomedische literatuur verwachten. Dat zou heel belangrijk kunnen gaan worden.’

Peer review en kwaliteit

De tegenwerping die ik wel eens hoor, is: moeten we niet eigenlijk iedereen, experts en andere geïnteresseerden, de kwaliteit bieden van een artikel dat door peer review is gegaan?

‘De fout in die redenering is dat je ervan uitgaat dat de eerste versie van een artikel géén kwaliteit heeft. Waar is dat op gebaseerd? Plus: voor welk publiek is het hoge kwaliteit? Experts uit het vakgebied kunnen zelf beoordelen of iets kwaliteit heeft. Zij hebben dat filter niet nodig. Je zou zelfs met “machine learning” een systeem kunnen bouwen dat bij artikelen vlaggetjes zet voor welk publiek ze geschikt zijn.’

Maar doordat vakgenoten kritisch naar preprints kijken, worden er nog wel eens fouten uitgehaald. De uiteindelijke versie is dan beter.
‘Akkoord, maar in de preprintservers staat er met een banner boven: dit stuk is nog niet gereviewd, read it at your own risk. Als je geen expert bent in dit vakgebied, lees het dan beter niet. Er is ook een erg interessante recente studie die aantoont dat het verschil tussen de preprintversie en de gepubliceerde versie gewoonlijk minimaal is. Vergeet ook niet dat er enorme problemen zijn met peer review. Veel studies hebben dat aangetoond.’

‘Ik zou veel liever een systeem hebben waarin je een hele reeks aan kwaliteitsmaatstaven hebt. Peer review kan daar onderdeel van zijn, maar ook het aantal downloads, de intensiteit van het commentaar op papers, het aantal citaties, altmetrics. Dus die hele bandbreedte. En denk nog verder: waarom zou ik niet zelf op mijn eigen WordPress-blog kunnen publiceren, of op een groepsblog? De kosten die daarmee gepaard gaan, zijn marginaal. Alle kosten gaan nu zitten in het omwerken van de eerste versie naar een finale publicatie.’

En zoiets als het publiceren van de tekst, plus de data, plus de analyses. Dat gebeurt ook nog niet veel.

‘Het gebeurt wel, bijvoorbeeld bij het open access-platform PLOS, waar beschikbaar maken van data nu verplicht is. Er is zeker een trend in die richting. Ook daar zie je trouwens dat men er geld voor gaat vragen. Tot voor kort was het opslaan en delen van je data in de repository Figshare.com nog gratis. En dan wordt er plots een prijskaartje aan bepaalde vormen van gebruik gehangen.’

‘Nu is er ook een roep om peer review op data. Dat zou meerwaarde, en dus geld, betekenen. Ik denk dat sommige uitgevers hopen dat peer review op data verplicht wordt gesteld. Dan kunnen ze dat ook inpalmen. Maar het is de omgekeerde beweging die we nodig hebben. Als we in de wetenschap het voortbouwen op het werk van anderen serieus nemen, dan is het vrij toegankelijk zijn van het ruwe materiaal, inclusief preprints, daarvoor een voorwaarde. Het machineleesbaar zijn van dat materiaal wordt steeds belangrijker.’

‘Uiteindelijk zal zelfs onze manier van lezen gaan veranderen. Eerst zullen we de machine laten lezen omdat er simpelweg te veel output is. Die maakt een meta-analyse en vertelt mij vervolgens waarom ik, met mijn specialisatie, dat zou moeten lezen. Dat is volgens mij het product van de toekomst: niet het doorsluizen van pdf’s, maar een meta-analyse over die hele corpus.’

Geheugen in het web inbouwen

Als ik naar jouw recentere werk kijk, zaken als Memento en Robust Links, dan spreekt daar iets uit van willen bewaren, iets toegankelijk willen houden van wat er in het verleden was.

‘Memento en Robust Links gaan inderdaad over toegang tot het verleden van het web. En op een manier die totaal geïntegreerd is met het huidige web. Op de manier zoals Tim Berners-Lee HTTP heeft gedefinieerd, had het web geen tijdscomponent. Alles leeft in het eeuwige nu. Je gaat op het web naar een bepaalde URI en je ziet wel wat daar vandaag staat. Er is geen manier om na te gaan wat daar op eerdere momenten stond.’

En in Memento roep je een bepaalde website aan met een tijdstempel?

‘Voilà. Veel mensen snappen het verschil niet tussen het gebruik van Memento en het oproepen van een site in archive.org, het Internet Archive. Daar tik je een URI in en ga je zoeken. Dat is een zoekmachine, maar geen integratie op het niveau van het HTTP-protocol.’

‘In Memento spreek ik letterlijk met de server zelf en vraag ik hem: wat weet jij van je eigen geschiedenis? De server kan dan onmiddellijk antwoorden: op die datum was dat mijn pagina. Dat is de ideale implementatie van Memento, dat een systeem zijn eigen archief bewaart, zoals vele wiki’s. Of dat het systeem weet wie zijn archief bewaart. Indien dit niet het geval is, dan moet je overstappen naar webarchieven en doe je je werk daar.’

‘Een volgende stap was dat wij bovenop Memento een infrastructuur hebben gebouwd, de Memento Aggregator, die de mogelijkheid biedt om met veel archieven tegelijk te kunnen spreken. Je wilt immers niet met slechts één archief spreken; je wilt juist een wereldbeeld van de archieven hebben. Memento levert dus interoperabiliteit voor tijd-gebaseerde toegang tot informatie in versiebeheersystemen en webarchieven.’

En Robust Links?

‘Dat gaat over een andere maar gerelateerde zaak, namelijk link rot en content drift. Link rot kent iedereen: dan krijg je de 404-melding dat de URI verwijst naar een adres dat niet meer bestaat. Content drift is wat minder bekend en refereert aan het feit dat de inhoud waarnaar een link verwijst verandert over tijd. Als dat niet zo zou zijn, zou je immers niet hoeven archiveren. Content drift is vooral problematisch in meer formele omgevingen, als je begint te refereren aan zaken als wetenschappelijke literatuur, wetsteksten en dergelijke.’

Hoe erg is het?

‘Zeer erg. Voor een op de drie URI-references naar websites in de wetenschappelijke corpora die we hebben bekeken kun je de originele informatie niet terugvinden. En uiteraard: hoe ouder de referentie, hoe moeilijker het terugvinden wordt.’

‘Met Robust Links hebben we daar een oplossing voor bedacht. Die twee dingen samen, link rot en content drift, hebben we reference rot genoemd. De oplossing ervoor bestaat uit twee delen. Het ene is triviaal: als je naar een website gaat verwijzen, zorg dan dat je er een snapshot van maakt in een webarchief. Dat kan een html-kopie zijn of een afbeelding. Tegenwoordig is het vaak beide. Het andere gaat over hoe je verwijst. Het principe is dat je drie dingen moet bewaren: de originele URI, het moment waarop je refereert, en de URI van de snapshot. Die drie tezamen geven je een maximaal terugvalmechanisme om het verleden te kunnen reconstrueren.’

‘Als het archief waarin je de snapshot hebt gemaakt verdwijnt, kun je met Memento wellicht nog steeds een andere snapshot vinden. Daarvoor dien je gebruik te maken van de originele URI en het tijdstip waarop de snapshot was gemaakt.’

De geschiedenis herschrijven

Bij alles wat er wordt gepubliceerd, speelt het probleem dat er soms fouten worden gemaakt die later worden hersteld. Door jouw werk worden die fouten met terugwerkende kracht weer zichtbaar. Het vraagstuk is vergelijkbaar met ’the right to be forgotten’ – ook Google wordt erop aangesproken dat ze langvergane kwesties weer zichtbaar maakt en zo mensen dupeert. Privacyvoorvechters hebben daarom ook kritiek op Memento. Hoe kijk jij daar tegenaan?

‘Mijn eerste reactie is: je moet iets niet naar buiten brengen als het niet oké is. Je kunt niets terugtrekken van het internet. Als jij iets op het internet publiceert, en het geluk of het ongeluk hebt dat het Internet Archive passeert en je materieel meeneemt, ja… dan is er niets meer aan te doen. Je kunt altijd vragen aan het Internet Archive om het niet te tonen. Daar hebben ze een beleid voor. Maar let wel: in andere gevallen gaat het over het moedwillig herschrijven van de geschiedenis, het willen wegnemen wat er ooit echt was, of dat willen overschrijven.’

‘Er is een goed voorbeeld van ongeveer een jaar geleden. De Conservative Party in het Verenigd Koninkrijk heeft alle speeches van David Cameron van haar eigen website verwijderd. En ook nog op zo’n manier dat het Internet Archive de kopieën die het had niet meer mocht tonen. Dankzij Memento en de Memento Aggregator vonden we uiteraard kopieën van die speeches in andere webarchieven. Dat laatste konden ze niet tegenhouden, maar ze wisten dus zeer goed waar ze mee bezig waren.’

‘Dit is een geval waarin je zegt: is Memento dan slecht? Eigenlijk gaat dit niet eens over Memento, dit gaat over webarchieven. Memento maakt het alleen makkelijker kopieën te vinden die al in die archieven aanwezig zijn.’

Hoeveel webarchieven zijn er wereldwijd?

‘We hebben nu ongeveer twintig webarchieven gecoverd in de Memento-infrastructuur. Het aantal groeit snel. Het was voorheen een visionaire activiteit van Brewster Kahle met zijn Internet Archive. Nu heb je verschillende nationale bibliotheken, ook in Europa, die webarchiveren. Veel van die archieven zijn trouwens niet via het web toegankelijk. Je moet fysiek in de bibliotheek aanwezig zijn om erbij te kunnen, zoals in de Koninklijke Bibliotheek in Den Haag.’

Webgecentreerd denken

In een recent artikel in D-Lib hebben je collega’s en jij het over de overgang van het denken vanuit de repository naar het denken vanuit het web. Dat repository-gecentreerde denken kwam natuurlijk uit bibliotheken en archieven. Nu kan ik me voorstellen dat die instellingen niet echt zitten te wachten op zoiets als het tweede, omdat het dan voelt alsof ze niet langer zelf de controle over hun collectie hebben. Is dat iets wat je merkt, dat bibliotheken en archieven weerstand bieden tegen die webgecentreerde manier van denken en de bijbehorende technologische oplossingen?

‘Ik denk niet dat dat noodzakelijkerwijs zo is. Het is misschien eerder een zaak van niet voldoende geïnformeerd zijn. Niet iedereen heeft de luxe die ik heb om twintig jaar te kunnen nadenken over dit soort zaken.’

‘Kijk, je werkt in een bibliotheek, je moet een repository neerzetten, je pakt iets van het schap en daar staat het dan. Het komt met de mogelijkheden die het heeft. Dan kom ik nog altijd met ondersteuning voor het Open Archives Initiative-Protocol for Metadata Harvesting. Vrijwel alle institutional repositories hebben dat geïmplementeerd. De metadata kunnen dan automatisch worden opgevraagd door andere webtoepassingen, waardoor de inhoud ook op andere plekken op het web vindbaar wordt.’

‘OAI-PMH was twintig jaar geleden een goed idee, een manier zoals je dingen toen oploste. Vandaag is dat totaal niet meer de juiste manier. Eigenaardig genoeg voel ik me daar een beetje schuldig over, hoewel dat niet zou hoeven. Er is een evolutie geweest in het denken over het web en hoe je dingen daar aanpakt. Maar repositories zijn in die tijd, eind jaren negentig, blijven steken. Ik review veel Europese projecten, en het eerste wat ik zie als het over interoperabiliteit gaat, is: “we gaan OAI-PMH implementeren”. En dan krijg ik koude koorts, want het is intussen wel 2016. Misschien moeten we dat even anders aanpakken.’

Hoe dan?

‘Nou, we hebben twee jaar gewerkt aan ResourceSync. Bijna niemand kent het nog. Dat is een opnieuw doordenken van de doelstelling van OAI-PMH, maar dan in webtermen. Het gaat niet meer alleen over metadata, het gaat over het synchroniseren van elke resource met een URI: metadata, een pdf, je html-pagina, die foto, enzovoort. Dus OAI-PMH deed synchronisatie van metadata, maar dan op een manier waarin de webarchitectuur en HTTP eigenlijk omzeild werden.’

‘ResourceSync neemt het web als uitgangspunt. De oplossing gebruikt de sitemaps – Google gebruikt die bijvoorbeeld om sites te harvesten. Sitemaps zijn puur een discoverymechanisme. Daarbovenop hebben we extra functionaliteit gedefinieerd die het bijvoorbeeld toelaat te verifiëren of de correcte bitstream werd binnengehaald, en om links naar gerelateerde documenten toe te voegen. Dus je kunt bijvoorbeeld verbindingen maken tussen de pdf en de metadata en omgekeerd. Al die documenten hebben hun eigen webidentiteit (URI) in de wereld van ResourceSync, dat helemaal een web-wereldbeeld is. Dat is hoe je dit volgens ons nu zou moeten aanpakken.’

‘Voorloper OAI-PMH was een zeer belangrijke katalysator voor de open access-beweging. En die twee hebben op elkaar ingespeeld. OAI-PMH is zo belangrijk geworden doordat mensen zich voor open access gingen inzetten. En open access is belangrijk geworden mede door de technologie die gebruikt kon worden om de open access-visie waar te maken.’

Een symbiose dus eigenlijk.

‘Ja, echt waar. Ik heb er veel over nagedacht hoe het kan dat ResourceSync nu zo weinig wordt opgepakt, omdat dat duidelijk de technologie is om op dit moment dingen voor elkaar te krijgen. Ik denk dat nu de beweegreden ontbreekt. Je hebt die combinatie van technologische vooruitgang en een sociale drive nodig, denk ik nu. ResourceSync is niet meer dan een technologie die het mogelijk maakt om informatie uit te wisselen. En het blijkt niet dringend genoeg te zijn om te implementeren, want de sociale drive ontbreekt nu.’

Waaraan zou dat kunnen liggen? Wat zou je met ResourceSync kunnen doen wat je zonder niet zou kunnen doen?
‘Simpel: alles wat je niet met OAI-PMH kan doen bij het synchroniseren van documenten. ResourceSync zou je kunnen gebruiken voor het archiveren van materiaal, omdat je informatiechecks hebt. Het zou een manier zijn voor een uitgever om zijn materiaal te tonen aan een archieforganisatie.’

‘In de eenvoudigste implementatie is ResourceSync gewoon een inventaris van wat je hebt. Maar je kunt er een aantal dingen bovenop zetten, zoals een lijst van recente wijzigingen, checksums en links en zo. En versiebeheer zit er ook ingebouwd. Het mooie is dat, wanneer je ResourceSync implementeert, je content meteen door Google en andere zoekmachines kan worden geïndexeerd.’

Authenciteit op het web

Een heel algemene vraag: ben jij optimistisch of pessimistisch over wat wij als mensheid kunnen oproepen op het web?

‘Het is essentieel voor ons om het te kúnnen oproepen. Het web is het grootste communicatiemedium dat de mensheid ooit heeft gecreëerd. Dus het feit dat je het niet zou archiveren, dat je er zelfs aan zou denken om het níét te archiveren, dat is eigenlijk waanzin. Eigenaardig genoeg is het met Brewster Kahle een internetondernemer geweest die in 1996 voor het eerst heeft ingezien dat we dat moesten gaan doen. En eigenaardig genoeg zijn de meeste bibliotheken nog altijd doof aan die kant, een aantal nationale bibliotheken daargelaten. Voor mij is dat onbegrijpelijk. Het web is hoe we nu communiceren en hoe we nog een hele tijd gaan blijven communiceren, dus het moet gearchiveerd worden. De vraag is hoe je het aanpakt, wat je precies archiveert, hoe de toegang ertoe geregeld is. Daar past Memento in.’

‘Authenticiteit is een van de grootste problemen die ik zie. In een papieren archief wist je met tamelijk grote zekerheid dat die documenten echt waren. Iemand had ze gearchiveerd, er had een controle plaatsgevonden. Dat hebben we momenteel met webarchieven helemaal niet. We moeten gewoon vertrouwen op het feit dat Brewster Kahle dit accuraat gearchiveerd heeft, of de British Library, of de KB.’

‘Dat is niet voldoende in de digitale tijd. We moeten een mechanisme vinden om iets van een garantie te kunnen bieden dat wat je ziet ook echt heeft bestaan. We weten nu al dat dit om technische redenen niet het geval is. Webarchieven tonen soms pagina’s die nooit hebben bestaan, bijvoorbeeld met plaatjes die maanden ouder zijn dan de tekst. Zoals de dingen er nu voorstaan, zou je eigenlijk geen materiaal uit webarchieven kunnen gaan gebruiken in een rechtszaak. Een goede advocaat schiet daar meteen gaten in.’

Het klinkt alsof dat je volgende grote kunstje gaat worden in Los Alamos.

‘De onzekerheid over de authenticiteit is een zeer groot probleem omdat het niet alleen technisch van aard is, maar ook sociaal. In mijn lab in Los Alamos kunnen we dit niet alleen oplossen. Wat niet wegneemt dat er aspecten aan zitten waar je technisch iets aan zou kunnen doen.’

Heb je tot slot nog iets wat je bibliotheken en archieven, of in het algemeen erfgoedinstellingen, zou willen meegeven? Een hartewens? Denk meer in termen van ‘distributed knowledge’, over het web verspreide en gelinkte kennis in plaats van geconcentreerde collecties?
‘Dat is evident, hè? Als je informatie hebt die je toegankelijk wilt maken, dan moet je vanuit het web denken. Niet vanuit je eigen repository en instelling. Het heeft bij mij jaren geduurd om die omslag in het denken te maken. Het is voor mij zelfs nog altijd moeilijk om het uit te leggen.’

‘Het gaat erom op het web te gaan “staan” en te kijken naar je instelling en je repository. En dan bedoel ik niet de user interface, maar: hoe leeft mijn informatie op het web? Is het vindbaar door machines? Daar begint het allemaal.’

‘Kijk, tenzij je een van die weinige websites ter wereld bent zonder welke niemand kan leven, komt er niemand naar je toe. Dus moet je ervoor zorgen dat je daar zit waar de mensen wel komen, zoals zoekmachines.’

Dat is een hele obligate, maar eentje die het kennelijk waard is om herhaald te worden?

‘Een totale open deur. Maar als je kijkt waar men in het hoger onderwijs, de wereld die ik het beste ken, mee bezig is… Ik zie het veel te weinig.’


Interoperabiliteitslingo

SFX
‘Special Effects’: een contextgevoelige ‘link resolver’: als je op een link klikt, stuurt deze je ook door naar de bedoelde bron als je je in een andere omgeving bevindt

OAI
Het Open Archives Initiative, een project dat standaarden ontwikkelt voor de interoperabiliteit op het web, zodat content efficiënter verspreid kan worden

OAI-PMH
Open Archives Initiative – Protocol for Metadata Harvesting
Technische standaard die het mogelijk maakt dat repository’s onderling gegevens over hun publicaties (metadata) kunnen uitwisselen

OAI-ORE
Open Archives Initiative – Object Reuse and Exchange
Standaarden voor de beschrijving en uitwisseling van aggregaties van webresources (bijvoorbeeld tekst, beeld, data, video) die verspreid over het web kunnen zijn opgeslagen

URI (Uniform Resource Identifier)
Generieke aanduiding voor een reeks karakters die een bron (resource) identificeert. Een URL (Uniform Resource Locator) is een van de zaken die eronder vallen

HTTP-protocol
Legt de basis voor datacommunicatie tussen gekoppelde informatiesystemen op basis van hypertext en daarmee voor de ontwikkeling van het world wide web

Memento
IETF RFC 7089, die een uitbreiding van het HTTP-protocol specificeert om uniforme, tijdgebaseerde toegang tot oude versies van web resources mogelijk te maken

Memento for Chrome
Extensie voor de Chrome-browser die het mogelijk maakt om door de tijd te reizen op het web

Memento voor MediaWiki
Extensie voor het MediaWiki-platform die tijd gebaseerde toegang tot
pagina’s via het Memento-protocol toelaat, bijvoorbeeld gebruik makend
van Memento for Chrome

Preprint
De eerste versie van een wetenschappelijk artikel die met anderen wordt gedeeld op een preprintserver (zoals Arxiv.org, PubMedCentral) nog voordat het is ingediend bij een tijdschrift en aan kritiek van vakgenoten (peer review) is onderworpen

Repository
Openbaar webarchief, doorgaans door bibliotheken van wetenschappelijke organisaties gefaciliteerd, waar de eigen onderzoekers hun publicaties kunnen uploaden, doorgaans niet de definitief opgemaakte versie uit het tijdschrift maar een eerdere versie van voor (preprint) of na (postprint) peer review

ResourceSync
NISO & Open Archives Initiative-standaard voor het synchroniseren van web resources tussen systemen

Robust Links
Een aanpak om links robuuster te maken door ze te decoreren met extra informatie


Frank Huysmans is redacteur van IP, bijzonder hoogleraar bibliotheekwetenschap aan de UvA en zelfstandig onderzoeker en adviseur bij WareKennis.

Deze bijdrage komt uit IP nr. 3 / 2016. Het gehele nummer kun je hier lezen.