Van publicatie tot samengesteld object: het verrijken van publicaties

Een verrijkte publicatie is een nieuw publicatietype bestaande uit een traditionele publicatie (een boek, artikel of een rapport) verrijkt met aanvullende informatie, zoals achterliggende onderzoeksdata, audiovisueel materiaal of commentaren. Deze informatie kan al beschikbaar zijn ten tijde van het gereedkomen van de publicatie of kan na het publiceren worden gegenereerd (commentaar; gebruikscijfers). Een verrijkte publicatie kan dus veranderen in de tijd. Deze verrijking maakt onderzoek transparanter. De grote uitdaging is: hoe zorgen we ervoor dat een onderzoeker zonder technische kennis zo’n samengestelde publicatie kan maken? Arjan Hogenaar behandelt in vogelvlucht de stappen naar de totstandkoming van deze nieuwe infrastructuur en doet aanbevelingen voor vervolgactiviteiten.

Door: Arjan Hogenaar

Stap 1: Blauwdruk die architectuur heet

De eerste stap is het opzetten van een architectuur. Zonder zo’n architectuur, waarbinnen onderzoekers naar eigen believen informatieobjecten aan elkaar kunnen koppelen, is het überhaupt niet mogelijk een verrijkte publicatie te creëren. De eerste theoretische exercitie om met gebruikmaking van Resource Description Framework (rdf) zo’n architectuur op te zetten, werd door Jane Hunter [1] in 2006 uiteengezet in een artikel over ‘Scientific Publication Packages’. Met dit artikel gaf zij de aanzet tot een discussie over het koppelen van gerelateerde informatiebronnen. In diezelfde periode werd binnen de Koninklijke Nederlandse Akademie van Wetenschappen (KNAW) gestart met een verbreding van het toenmalige DAREnet. Het resultaat is NARCIS, de door DANS beheerde portal die naast de DAREnet-content (beschrijvingen van artikelen) ook toegang biedt tot informatie over onderzoekers, onderzoeksinstituten, (lopend) onderzoek en datasets. Toegang tot de bestanddelen van de ‘Scientific Publication Packages’ dus, maar dan zonder hun onderlinge relaties. De ‘Scientific Publication Packages’ gingen in het Nederlandse spraakgebruik overigens al snel ‘Verrijkte Publicaties’ heten.

Vrij kort na het verschijnen van het artikel van Jane Hunter kregen onderzoekers Herbert van de Sompel en Carl Lagoze het idee om het hergebruik en de uitwisseling van objecten binnen internet te bevorderen. Dublin Core metadata-elementen en het metadata harvesting protocol van het Open Archive Initiative (OAI-PMH) zijn onvoldoende geschikt voor het beschrijven van een samengestelde object. Bij een samengesteld object – een logisch geheel van aan elkaar gerelateerde deelobjecten – is te denken aan de hoofdstukken van een digitaal boek. Ook een verrijkte publicatie is een samengesteld object (maar niet elk samengesteld object is een verrijkte publicatie).

Het geheel van objecten mét hun onderlinge relaties heet een aggregatie. Het vernieuwende van het door Van de Sompel en Lagoze in 2008 geïntroduceerde OAI-ORE (Object Re-use and Exchange) [2] maakt het mogelijk uitwisselbare beschrijvingen van verrijkte publicaties te maken in de vorm van dergelijke aggregaties.

De aggregatie zelf kan gezien worden als het resultaat van intellectuele inspanning van een onderzoeker. Het is daarom nodig om ook een beschrijving van de aggregatie mee te geven waaruit is af te leiden wie ervan de samensteller is. Deze beschrijving heet in het OAI-ORE-model een Resource Map. In het simpelste model bestaat de aggregatie uit enkelvoudige objecten. Het model staat het beschrijven van bestaande aggregaties binnen een nieuwe aggregatie echter probleemloos toe.

Stap 2: Ontwikkelen van object- en datamodel

In SURFshare-verband is verder nagedacht over opslag en beheer van dit nieuwe publicatietype. Zo legt het in het kader van het Europese DRIVER-project ontwikkelde objectmodel voor verrijkte publicaties [3] tien requirements vast voor opslag en beheer. Vervolgens is binnen SURFshare gewerkt aan de ontwikkeling van een correct datamodel, waarvan begin 2011 versie 0.9 [4] beschikbaar is gekomen.

Inmiddels is OAI-ORE in combinatie met rdf/xml te beschouwen als een de facto standaard voor de beschrijving van verrijkte publicaties. Ook tools die in het buitenland worden of zijn ontwikkeld, maken hier gebruik van. Met als voordeel dat in de nabije toekomst internationale ontsluiting en uitwisseling mogelijk wordt.

Tegelijkertijd blijft OAI-PMH het protocol voor het harvesten van metadata, ook die van verrijkte publicaties. Niet verplicht, maar wel zeer wenselijk is het om alleen informatiebronnen waarvan een Uniform Resource Identifier (URI) bekend is op te nemen. Als nadere specificatie is het aan te bevelen de identificatie van de informatiebronnen te scheiden van hun locatie. Dit kan door toepassing van Persistent Identifiers (URN:NBN; doi; handle).

Stap 3: Onderzoekers aan de slag

Zodra de contouren van het datamodel stonden, was de tijd rijp om onderzoekers – de groep waar het allemaal om te doen is – bij de ontwikkelingen te betrekken. Eind 2010 is door SURFfoundation een tender ‘Verrijkte Publicaties’ uitgezet, met als doel om onderzoekers te laten werken met de binnen SURFshare ontwikkelde tools, afspraken en standaarden op dit gebied. Met andere woorden: de tender toetste wat in de periode 2006-2010 is ontwikkeld aan de praktijk van de onderzoeker. Uiteindelijk zijn er in 2011 zes projecten van start gegaan.

Stap 4: Visualisatie die tot de verbeelding spreekt

Een serialisatie in rdf/xml is de meest eenvoudige representatie van een verrijkte publicatie (zie figuur 1). Voor een gewone gebruiker blijft het echter lastig om de onderlinge relaties te doorgronden. Om die relaties toch inzichtelijk te maken, gaf SURFfoundation in 2010 opdracht tot de ontwikkeling van een visualisatietool, genaamd LiveContext.1 Deze tool vertaalt in rdf/xml aangeleverde beschrijvingen in overzichtelijke grafische presentaties. LiveContext is in 2011 ook in NARCIS geïntegreerd (zie figuur 2).

rdf/xml-weergave verrijkte publicatie

 

grafische weergave in NARCIS van rdf/xml uit figuur 1

Stap 5: Uitkomsten van de tenderprojecten

Verrijkte Publicaties in NARCIS Het bleek voor onderzoekers geen simpele klus om verrijkte publicaties aan te maken die ook nog eens grafisch juist weergegeven konden worden. Het ging de onderzoekers er primair om correcte beschrijvingen in Atom of rdf/xml te produceren. Daarbij bleek dat ze soms te maken hadden met gecompliceerde informatiebestanddelen die zich niet altijd even gemakkelijk in het datamodel lieten dwingen. Toch slaagden de onderzoekers erin de nodige beschrijvingen op te leveren. DANS heeft op twee manieren getest hoe die beschrijvingen door de NARCIS-portal verwerkt zouden worden. Allereerst is de aangeleverde rdf/xml aangeboden aan de W3C rdf-validator. Naast valide rdf/ xml bleken er ook beschrijvingen opgeleverd te zijn met meer of minder grote afwijkingen. Vaak waren het kleine foutjes, veroorzaakt door de tijdsdruk waaronder de onderzoekers moesten werken (ze hadden slechts vijf maanden de tijd voor het aanleveren).

Ten tweede heeft DANS getest hoe de aangeleverde rdf/xml in de LiveContext visualiser getoond werd. In tegenstelling tot de verwachting blijkt valide rdf/xml niet altijd een correcte grafische weergave op te leveren. Zo kan valide rdf/xml termen bevatten die afkomstig zijn uit een niet correct beschreven ontologie. De visualiser kan hier niet goed mee uit de voeten.

In de tenderprojecten hebben de meeste onderzoekers ervoor gekozen zelf hun beschrijvingen in Atom of rdf/xml aan te maken. Anderen hebben ervoor gekozen om gebruik te maken van een bestaande tool van de Universiteit Twente (ESCAPE2, zie figuur 3). Het voordeel van zo’n tool is dat de onderzoeker alleen hoeft na te denken over wat hij combineert en niet over hoe hij rdf/xml moet produceren. Na het aanmaken van de titel van de aggregatie krijgt de onderzoeker de mogelijkheid naar believen documenten, personen, projecten, groepen en dergelijke toe te voegen. De tool legt automatisch de juiste relaties vast.

 

beeld van de tool ESCAPE2

 

In de praktijk bleken verrijkte publicaties die met de ESCAPE2 tool waren aangemaakt, valide rdf/xml op te leveren die bovendien probleemloos grafisch kon worden weergegeven.

Buiten de tenderprojecten om heeft DANS onderzocht of nu nog los van elkaar voorkomende informatieonderdelen in NARCIS aan elkaar gerelateerd konden worden met gebruikmaking van het eerder genoemde datamodel. Hiertoe zijn onder andere beschrijvingen van promotieprojecten gekoppeld aan de uitkomsten hiervan: de dissertaties. Het bleek heel goed mogelijk op basis van deze bestanddelen verrijkte publicaties samen te stellen en te tonen binnen NARCIS.

Beeld van huidige infrastructuur

Uit de hierboven beschreven stappen kan het volgende beeld van de infrastructuur voor verrijkte publicaties gedestilleerd worden:

  1. een onderzoeker beschikt over een tool om samengestelde objecten aan te maken (bijvoorbeeld ESCAPE2);
  2. met behulp van de tool bepaalt hij welke objecten deel gaan uitmaken van de verrijkte publicatie en wat de relaties zijn tussen die objecten. Desgewenst kan hij ook aangeven waarom hij die relaties heeft gelegd. De objecten worden in principe gekozen uit bestaande (duurzame) repositories.2 In het kader van de duurzaamheid is toepassing van persistent identifiers bij de objecten een voorwaarde. Omdat een object ook onderdeel kan zijn van een andere verrijkte publicatie, is het mogelijk om impliciete relaties tussen (complexe) objecten zichtbaar te maken;
  3. de tool vertaalt de geselecteerde objecten met hun relaties in rdf/xml en slaat de beschrijvingen op in een repository;
  4. de repository met beschrijvingen wordt door serviceproviders als NARCIS geharvest;
  5. de serviceproviders hebben hun infrastructuur aangepast zodat de verrijkte publicaties grafisch kunnen worden weergegeven;
  6. gebruikers van systemen als NARCIS hebben de mogelijkheid de beschrijvingen als rdf/xml op hun eigen computer op te slaan;
  7. de onderzoeker kan aan gebruikers rechten verlenen om het object verder te verrijken (met commentaar, extra afbeeldingen, et cetera).

Tijdig starten

Het aanmaken van verrijkte publicaties achteraf kost veel extra werk (en dus geld). Hetzelfde verschijnsel trad op in de beginfase van de klassieke repositories toen in 2003 vele papieren publicaties retrospectief gedigitaliseerd moesten worden. Om in de toekomst van extra werk gevrijwaard te worden, verdient het aanbeveling de productie in te passen in de workflow van de onderzoeker. De onderzoeker maakt bij het produceren van datasets en publicaties nu ook al gebruik van allerlei gerelateerde informatie, zonder deze vast te leggen. Met de juiste, slimme tools moet het mogelijk zijn zonder tijdverlies samengestelde objecten aan te maken. Het feit dat binnen Europa (OpenAIRE plus) al concreet wordt nagedacht over het verplicht laten opslaan van output in de vorm van dit nieuwe publicatietype, kan bijdragen aan een snelle aanpassing van de workflow.

Beheer en kosten

Het beheer van repositories met beschrijvingen van verrijkte publicaties is niet wezenlijk anders dan het beheer van klassieke repositories. Wanneer de beschrijvingen bovendien zijn opgebouwd uit informatieobjecten afkomstig uit bestaande trusted digital repositories3 voor datasets en publicaties, zal ook het beheer van de achterliggende objecten niet moeilijk zijn. Complexer wordt het als in een later stadium informatieobjecten worden toegevoegd (of worden gewijzigd). In het laatste geval verandert het karakter van de verrijkte publicatie van statisch in dynamisch. Dit vereist een beheersysteem dat het mogelijk maakt de verschillende verschijningsvormen in de tijd te kunnen reconstrueren. Het beheer brengt kosten mee, met name het beheer van dynamische objecten.

DANS wordt nu al geconfronteerd met aangeleverde datasets die onlosmakelijk gekoppeld zijn aan een bepaalde applicatie. Alleen beheer van dataset én applicatie is zinvol. Het is niet onlogisch om de kosten voor het onderhoud van een dergelijke applicatie bij degene te leggen die de informatie heeft aangeleverd.

Een soortgelijke constructie is denkbaar voor verrijkte publicaties. Hier is sprake van een analogie met het OpenAIREplusproject [5]: de EU als subsidieverstrekker verplicht de onderzoeker om de resultaten van het onderzoek (dataset(s) plus publicatie(s)) vrij toegankelijk te maken. In ruil hiervoor is het de onderzoeker toegestaan om de kosten voor blijvende Open Access op te nemen in een subsidieaanvraag. Zo verkrijgt de onderzoeker de middelen om bij te dragen aan duurzaam beheer. Vanzelfsprekend zou deze oplossing ook kunnen worden toegepast bij nationale subsidies zoals van NWO.

Duurzaamheid

Een onderzoeker kan een verrijkte publicatie op vele manieren samenstellen. In het ideale geval gebruikt hij informatieobjecten die zijn opgeslagen in duurzame repositories, zoals in het online archiveringssysteem EASY van DANS. Deze duurzaamheid wordt verder vergroot door aan zowel de overkoepelende beschrijving als aan de onderliggende informatieonderdelen persistent identifiers toe te kennen. Wanneer een onderzoeker niet-duurzame objecten wil opnemen, ontstaat het risico dat de duurzaamheid van het gehele object in gevaar komt. Een oplossing voor dit probleem zou kunnen zijn om de objecten uit niet-duurzame repositories over te hevelen naar een Europese duurzame repository van ‘weesobjecten’.

Relatie met commerciële uitgevers

Hoewel in eerste instantie afwachtend, zijn uitgevers inmiddels ook overtuigd van de meerwaarde van verrijkte publicaties. In dit artikel kunnen de ontwikkelingen waar commerciële uitgevers bij betrokken zijn, slechts kort aangestipt worden. Na het bekende initiatief uit 2009 van Elsevier inzake ‘Article of the Future’ zijn allerlei samenwerkingsverbanden ontstaan tussen uitgevers, onderzoekers en subsidieverleners.

Veelbelovend is het FORCE11 (Future of Research Communication and eScholarship) initiatief. Deze groep waarin vele stakeholders samenwerken heeft een manifest gepubliceerd4 waarin concrete stappen worden voorgesteld om wetenschappelijke communicatie te verbeteren. FORCE11 stelt dat wetenschappelijke informatie zoveel mogelijk vrij toegankelijk dient te zijn. Een meerwaarde is het toevoegen van aanvullende informatie aan traditionele publicaties in de vorm van research objects. Deze research objects zijn vrijwel synomiem aan verrijkte publicaties. Als uitgevers deze visie gaan overnemen, zullen zij moeten overstappen op een geheel nieuw businessmodel dat eerder op het creëren van die meerwaarde zal zijn gebaseerd dan op het verkopen van (digitale) boeken en tijdschriften.

Toekomst

In het afgelopen jaar is een aanzet gegeven tot het in samenhang weergeven van wetenschappelijke publicaties. Er is veel ervaring opgedaan en er is veel waardering voor de onderzoekers die bereid waren hun nek uit te steken om wetenschappelijke informatie op geheel nieuwe wijze te presenteren. Het is ook duidelijk dat er nog veel stappen zullen volgen. Wat doen we bijvoorbeeld met het gebruik van ontologieën? In de praktijk blijkt er behoefte te bestaan aan vele ontologieën om de verschillende informatieobjecten in een verrijkte publicatie te kunnen beschrijven.

Wildgroei is echter ongewenst, omdat het validatieproces onbeheersbaar dreigt te worden. Samen met onderzoekers uit diverse disciplines en uit verschillende landen zou een evenwichtige set ontologieën ontwikkeld moeten worden. En hoe gaan we om met de grenzen van een samengesteld object? Het model biedt onderzoekers in principe de mogelijkheid alle op internet beschikbare objecten aan elkaar te koppelen. Maar niemand zit te wachten op een verdubbeling van internet. Het zou best eens zo kunnen zijn dat de expertise van de informatiespecialist hier hard nodig is.


Buitenlandse ontwikkelingen

Ook in het buitenland staan de ontwikkelingen op het gebied van verrijkte publicaties niet stil. De gedachte heeft postgevat dat het handig is de onderzoekers te voorzien van tools waarmee ze snel correcte beschrijvingen van verrijkte publicaties kunnen maken. Het zou goed zijn deze tools in internationaal verband te evalueren, zodat een onderzoeker kan zien in welke gevallen hij welke tool zou kunnen gebruiken. Daarnaast heeft de Europese Commissie het belang van het samenbrengen van publicaties en additionele informatie onderkend.

Twee belangrijke tools zijn:

eScienceDoc

eScienceDoc is een initiatief van het Max Planck Gesellschaft en FIZ Karlsruhe. Het initiatief heeft inmiddels software opgeleverd die onder een open source-licentie vrij beschikbaar is voor andere organisaties. Zij kunnen eScienceDoc aanpassen aan hun eigen wensen en behoeften. De principes lijken op die van de ESCAPE-tool. Onderzoekers kunnen beschrijvingen aanmaken van hun traditionele publicaties, inclusief verrijkingen (datasets; beschrijvingen van auteurs etc.).

Scope en Lore

Omdat Jane Hunter in 2006 de aanzet heeft gegeven tot het nadenken over een infrastructuur voor verrijkte publicaties, mogen haar initiatieven SCOPE en LORE hier niet ontbreken. SCOPE (Scientific Compound Object Publishing and Editing) en LORE (Literature Object Re-use and Exchange) zijn beide tools die een onderzoeker kan gebruiken om op simpele wijze verrijkte publicaties aan te maken. Ook kennen beide tools visualisers die het gemakkelijker maken de verbanden tussen de componenten te herkennen. SCOPE en LORE maken beide gebruik van het OAI-ORE-protocol. De met deze tools aangemaakte verrijkte publicaties hebben dan ook meer overeenkomsten met wat binnen de SURFshare-tender is geproduceerd dan de binnen eScienceDoc opgeleverde objecten.

Een belangrijke ontwikkeling is:

OpenAIRE plus

OpenAIRE plus is geen tool, maar wel een ontwikkeling die in dit verband belangrijk is. Het is een Europees project dat beoogt de diverse typen output van onderzoek met een subsidie van via KP7 of ERC publiek toegankelijk te maken. OpenAIRE plus wil een Europese infrastructuur voor verrijkte publicaties opzetten die deels zal zijn gebaseerd op die welke binnen DRIVER en binnen Nederland zijn opgezet.


Noten

  1. wiki.surffoundation.nl/display/vp/LiveContext.
  2. In theorie kan een onderzoeker ook een beschrijving van een gedrukte publicatie onderdeel laten uitmaken van een verrijkte publicatie. Het is aan te bevelen dit slechts bij hoge uitzondering te doen, omdat dit de transparantie deels weer tenietdoet.
  3. Trusted Digital Repositories zijn repositories die voldoen aan bepaalde voorwaarden met betrekking tot de duurzaamheid van de opgeslagen informatie. Een voorbeeld van die voorwaarden staat in het Data Seal of Approval (www.datasealofapproval.org).
  4. force11.org/sites/default/files/book_attachments/Force11Manifesto20111028.pdf.

Geraadpleegde literatuur

  1. Hunter, J. Scientific Publication Packages – A Selective Approach to the Communication and Archival of Scientific Output’. In: International Journal of Digital Curation 1 (2006). www.ijdc.net/index.php/ijdc/article/view/8.
  2.  Lagoze, C & Van de Sompel, H. ORE User Guide – Primer (2008). www.openarchives.org/ore/ 1.0/primer.
  3. Verhaar P. Objectmodel Enhanced Publications (2008). wiki.surffoundation.nl/display/standards/ Objectmodel+Enhanced+Publications.
  4. Bijsterbosch, M. Resource Maps in RDF XML, version 0.9 (2011). wiki.surffoundation.nl/display/ vp/Resource+Maps+in+RDF+XML.
  5. Paving the way to an open scientific information space: OpenAIREplus – linking peer-reviewed literature to associated data. Press release december 2011, www.openaire.eu/nl/component/content/article/76-highlights/326-openaire plus-press-release.

Arjan Hogenaar is beleidsmedewerker bij DANS. Hij is binnen dit instituut betrokken bij projecten die beogen de infrastructuur voor data te verbeteren. Hiermee bevordert Hogenaar samen met collega’s de duurzame toegang tot digitale onderzoeksgegevens.

Deze bijdrage komt uit IP nr. 3 / 2012. Het gehele nummer kun je hier lezen