Triples, URI’s, RDF, vijf sterren van open data, vocabulary’s… er komt veel kijken bij linked open data. Maar hoe kan deze data zinvol in de praktijk van informatieprofessionals worden toegepast?
Door: Lukas Koster
Het zou mooi zijn als we al surfend op het web bij een gevonden resultaat automatisch verwante relevante informatie gepresenteerd zouden krijgen. Dat is het idee van het semantische web, waarop linked data als een set praktisch toepasbare regels is gebaseerd. Men noemt dit wel het ‘follow your nose’- of ‘je neus achterna’-principe, waarbij je al klikkend relevante informatie van velerlei aard vindt. Wat hiervoor nodig is, is een webinfrastructuur van volledig onderling verbonden data, die tevens de ingebouwde functionaliteit biedt om gerelateerde informatie te leveren. Zover zijn we nog lang niet, alhoewel Google met zijn eigen enorme, altijd groeiende geïndexeerde bak met ‘big data’ een goede poging doet. Op basis van de knowledge graph-technologie (http://www.google.com/insidesearch/features/search/knowledge.html) wordt in zoekresultaten aanvullende informatie getoond over de zoekterm of over verschillende betekenissen van de zoekterm.
Het ‘je neus achterna’-principe wordt ook gebruikt in semantische browsers op basis van beschikbare RDF-datasets en URI’s (zie bijvoorbeeld http://browse.semanticweb.org voor het online verkennen van diverse al dan niet werkende voorbeelden). Het gaat hier om speciaal ontwikkelde linked open data-applicaties. Hierbij hebben we meteen de aard van het probleem te pakken: er zijn nog altijd aparte softwaretoepassingen nodig om te werken met linked open datasets die op het web beschikbaar zijn. Het maakt hierbij niet uit of de software op een webserver in een browser werkt, of als app op een smartphone, tablet of pc.
Wat is er nodig?
Zowel voor het publiceren als voor het gebruiken van linked open data in bestaande en nieuwe toepassingen is, naast vakinhoudelijke kennis, technische expertise nodig, behalve standaard systeemontwikkelcapaciteiten ook specifieke linked open data-kennis
Voor het implementeren van linked open data-toepassingen kunnen erfgoedinstellingen verschillende wegen bewandelen: zelf ontwikkelen; open source tools gebruiken (waarbij ook veel zelf gedaan moet worden); standaardsoftware van commerciële leveranciers aanpassen; diensten afnemen van samenwerkingsverbanden. Uiteraard zijn allerlei combinaties hiervan mogelijk.
Veel erfgoedinstellingen hebben niet de middelen om zelf aan systeemontwikkeling te doen. De meeste bibliotheken zijn afhankelijk van commerciële software, al dan niet via een samenwerkingsverband. Is is er wel ontwikkelcapaciteit, dan worden regelmatig applicaties gebouwd die niet algemeen bruikbaar zijn of die na de projectfase niet meer onderhouden worden. Dit was u misschien al opgevallen toen u de bovenstaande semantic browserlink probeerde.
Niet standaard
Linked open data-projecten zijn geen standaard ict-projecten. Vanwege de afhankelijkheid van derden is planning lastig en is het resultaat inherent onvoorspelbaar. Bij het publiceren van linked open data is er geen direct zichtbaar functioneel resultaat, omdat men afhankelijk is van het gebruik ervan in door anderen ontwikkelde apps en diensten. Anderzijds is men bij het ontwikkelen van apps en diensten weer afhankelijk van de beschikbaarheid van door anderen gepubliceerde en onderhouden linked open datasets. Het combineren van beide concepten in één project geeft meer kans op succes, maar dan schiet men het originele doel voorbij. Het resultaat is dan eigenlijk een traditioneel informatiesysteem, met RDF als databaseopslagstructuur.
RDF en URI
Naast het publiceren en het gebruiken van linked open data is er nog een derde toepassingsmogelijkheid, waarbij eveneens beide andere concepten worden gecombineerd, namelijk het werken met RDF en URI’s als basis van de eigen workflows. Voor bibliotheken betekent dit dat minimaal bibliografische en holdingsdata als triples met links worden aangemaakt en opgeslagen. Hiervoor zijn nieuwe standaarden en informatiesystemen nodig.
De Library of Congress werkt sinds 2011 aan het op RDF gebaseerde BIBFRAME (Bibliographic Framework, http://www.loc.gov/bibframe) als vervanging van het wereldwijd gebruikte bibliografische MARC recordformat (http://www.loc.gov/marc). BIBFRAME is een beetje een hybride geval. In eerste instantie wordt beoogd bestaande bibliografische databases te converteren naar de BIBFRAME vocabulary met gebruikmaking van bestaande erkende externe authority files als VIAF en de Library of Congress Subject Headings, maar zonder gebruik te maken van bestaande vocabulary’s als BIBO en Dublin Core. Dus wel RDF, maar naar binnen gericht en niet echt open.
Als BIBFRAME als nieuwe standaard wordt geaccepteerd, dan moeten er ook systemen beschikbaar komen die met RDF als interne structuur overweg kunnen. Dat zal nog wel enige tijd duren. De Koninklijke Bibliotheek van Zweden wil daar niet op wachten. Zij is bezig van de grond af aan een op linked open data gebaseerd systeem te ontwikkelen voor LIBRIS, de Zweedse gemeenschappelijke catalogus (http://kat.libris.kb.se).
Gebruik
Het gebruiken van RDF als basis voor de eigen workflows heeft als bijkomend voordeel dat de eigen informatie zonder veel extra werk als linked open data kan worden gepubliceerd. Tot het zover is zullen andere middelen moeten worden ingezet voor hetzelfde resultaat. Enkele Nationale Bibliotheken publiceren data afkomstig uit traditionele systemen als linked open data. Bijvoorbeeld de Deutsche Nationalbibliothek (http://www.dnb.de/EN/Service/DigitaleDienste/LinkedData/linkeddata_node.html), de British Library (http://www.bl.uk/ bibliographic/datafree.html#lod) en de Bibliothèque Nationale de France (http://data.bnf.fr/semanticweb). In Duitsland doen een paar regionale consortia dit voor hun gemeenschappelijke catalogi, zoals hbz via LOBID (http://lobid.org) en BVB en KOBV via B3KAT (http:// lod.b3kat.de). Er zijn ook commerciële bibliotheeksysteemleveranciers die mogelijkheden bieden voor het als linked open data publiceren van lokale bibliografische informatie, zoals OCLC via WorldCat (http://www.oclc.org/data.en.html) en Ex Libris via Primo (https://github.com/ ExLibrisGroup/primo.PNX-context). ArchivesHub UK publiceert archiefdata in het LOCAH-project (http:// data.archiveshub.ac.uk). Voor museumdata is het Amsterdam Museum in Nederland een voortrekker (http://datahub.io/dataset/amsterdam-museum-as-edm-lod). Europeana is een voorbeeld van een overkoepelende erfgoedportal met linked open data (http://data.europeana.eu).
In hoeverre deze (en andere) door bibliotheken, musea en archieven gepubliceerde linked open datasets door anderen worden gebruikt, is moeilijk te zeggen. In ieder geval wordt de door de British Library gepubliceerde British National Bibliography gepresenteerd in het ArchivesHub UK project Linking Lives (zie onder).
Toepassingen
In de erfgoedsector liggen nuttige toepassingen nog niet voor het opscheppen. Een paar voorbeelden. De Bibliothèque Nationale de France presenteert op haar linked data-website http://data.bnf.fr pagina’s per auteur, werk en thema waarop informatie afkomstig van de eigen linked open data-bronnen in geaggregeerde overzichten wordt gepresenteerd. In het Nederlandse Nationale Bibliotheekcatalogusproject wordt gewerkt aan een op linked open data gebaseerde semantische zoekfunctie (zie http://stichting.bibliotheek.nl/pagina/14726.nationale-bibliotheekcatalogus.html). Het Oostenrijkse nationale bibliotheekconsortium biedt in zijn Primo-zoekinterface (http://search.obvsg.at/OBV) extra informatie over personen aan afkomstig uit DBpedia, hetgeen mogelijk is doordat de persoonsnummers uit de thesaurus van de Deutsche Nationalbibliothek in Wikipedia zijn opgenomen. Een andere koppeling tussen Primo en DBpedia wordt geboden door de Sächsische Landes- und Universtitätsbibliothek in Dresden (http://www.slub-dresden.de). De lokaal ontwikkelde add-on SLUBSemantics biedt ontsluiting op onderwerpen, afkomstig uit DBpedia/ Wikipedia, waarmee problemen van meertaligheid en dubbelzinnigheid worden opgelost.
De Openbare Bibliotheek van Oslo biedt twee diensten aan die gebruik maken van een centrale RDF-schaduwcatalogus verrijkt met informatie uit externe databronnen: een Recensiedienst (http://anbefalinger.deichman.no) en de ‘Active Shelves’ (http://digital.deichman.no/blog/2012/10/16/active-shelves), werkstations die RFID-chips van materialen lezen en gerelateerde informatie tonen. Dit laatste project lijkt zeer veel op de Socialmediacaster die is ontwikkeld bij de Bibliotheekservice Friesland (http://www.socialmediacaster.org).
De eerder genoemde Archiveshub UK werkt aan het ‘Linking Lives’- project (http://data.archiveshub. ac.uk/linkinglives), waarin biografische overzichten worden gegenereerd, gebaseerd op hun eigen LOCAH-dataset gecombineerd met andere bronnen zoals DBpedia en de British National Bibliography.
Tot slot
Concluderend kan worden vastgesteld dat een aantal bibliotheken, archieven en musea al linked open data publiceren. Het lijkt erop dat deze data vooralsnog voornamelijk door de instellingen zelf worden hergebruikt. Als het om hergebruik van externe data gaat, dan is DBpedia een belangrijke bron. Open datasets zonder linked data en RDF, met name van archieven en musea, worden wel gebruikt, meestal in toepassingen gemaakt door individuen in competitieverband (zie bijvoorbeeld http://www.opencultuurdata.nl, http://codingdavinci.de).
Door krachten te bundelen in samenwerkingsverbanden, zoals consortia, open source gemeenschappen en gebruikersgroepen van commerciële systeemleveranciers, zullen ook erfgoedinstellingen en informatieprofessionals de vruchten van linked open data kunnen plukken.
Lukas Koster is Coördinator Bibliotheeksystemen bij de Bibliotheek van de Universiteit van Amsterdam.
Deze bijdrage komt uit IP nr. 6 / 2014. Het gehele nummer kun je hier lezen