Door Iris Geldermans
Hoe vaak verwijzen gearchiveerde websites naar sociale media? De KB voerde samen met het NDE een linkanalyse uit op haar data – inclusief visualisaties.
Vorig jaar heeft de KB in samenwerking met het Netwerk Digitaal Erfgoed (NDE) voor het eerst een linkanalyse uitgevoerd op gearchiveerde data uit haar webcollectie. Het doel hiervan was te onderzoeken hoe vaak gearchiveerde websites verwijzen naar socialemediaplatforms en welke dat zijn. Hiervoor zijn gearchiveerde WARC-bestandengeanalyseerd uit de maand september in de jaren 2010, 2013, 2016 en 2019.
De KB heeft een selectieve webcollectie, wat inhoudt dat websites per stuk worden gearchiveerd. Het vinden van de WARC-bestanden op basis van een archiveringsdatum was daarom eenvoudig. Uit deze dataset hebben we vervolgens alle links getrokken die deze tags bevatten: <a>, <link>, <area>, <img>, <script>, <embed>, <source>, <frame>, <iframe> en <track>. Dit leverde een dataset op met ‘webpagina waarop de link was gevonden’, ‘gevonden hyperlink’, en metadata zoals het tijdstip en de datum waarop het specifieke object was geharvest.
Strings wegknippen
De links waren alleen lastig te visualiseren omdat er veel unieke (pagina/object) links in zaten. Voor dit onderzoek zijn ze daarom teruggebracht tot hele domeinen (kb.nl). Daarop hebben we de complete dataset ingeladen in een HeidiSQL (MariaDB)-omgeving en daar alle hyperlinks bewerkt door eerst alles links van de string ‘//’ te verwijderen om zo de ‘https://’ en ‘http://’ weg te knippen. Vervolgens hebben we alle pagina’s weggeknipt door alles rechts van de ‘/’ te verwijderen, en ten slotte nog de string ‘www.’. Dit leverde geen perfect resultaat op, maar wel goed genoeg voor een pilotproject.
Na het verwerken van de hyperlinks konden we de dataset groeperen, zodat duidelijk werd hoe vaak domein A naar domein B verwijst. Vervolgens konden we deze lijst, bestaand uit ‘domein A’, ‘domein B’ en ‘aantal verwijzingen’, importeren in visualisatietool Gephi.
Degree of indegree
Een visualisatie ziet er al snel indrukwekkend uit, maar er is wel uitleg en context bij nodig. Ten eerste: de visualisatie van een webcollectie is altijd incompleet. Dit komt simpelweg doordat het archief incompleet is. Domein A verwijst naar domein B, maar de kans is groot dat domein B niet gearchiveerd is. Wanneer er vervolgens een visualisatie wordt gemaakt op basis van degree (hoe vaak één node [website] verwijst naar andere nodes, plus hoe vaak er naar die nodes verwezen wordt), zal deze de gearchiveerde websites als grootste nodes tonen. Deze verwijzen immers het vaakst naar andere (niet-archiveerde) nodes. Daarom hebben we er bij dit onderzoek voor gekozen om de nodegrootte te baseren op indegree (hoe vaak er naar een node verwezen wordt). Dit paste ook bij ons onderzoek naar de link tussen gearchiveerde sites en socialemediaplatforms.
Waar is Hyves gebleven?
Een tweede probleem is dat de visualisatie de meest constante voorbewerkte hyperlinks toont: Facebook, Twitter en YouTube boven Hyves en Blogspot. De eerste groep is namelijk opgebouwd als facebook.nl/account (wordt opgeknipt als facebook.nl), en de tweede groep als account.hyves.nl/ (wordt opgeknipt als account.hyves.nl). Hierdoor worden de Hyves-websites allemaal individuele nodes, terwijl Facebook één grote node wordt en daardoor in de visualisatie veel duidelijker aanwezig is. Een linkvisualisatie zou daarom altijd moeten worden aangevuld met bijvoorbeeld onderzoek naar termen in de dataset.
> Meer over het onderzoeksproces, de resultaten en de lessons learned lees je in een nieuwe blogreeks op lab.kb.nl: Analysing hyperlinks in the KB web collection.
> Benieuwd naar andere afleveringen van de KB-onderzoeksrubriek? Je vindt ze in het online archief op www.informatieprofessional.nl.
Een WARC (Web ARChive) is een bestandstype waarin gearchiveerde websites worden opgeslagen samen met een metadatalaag die details van het archiveringsproces bevat.
Iris Geldermans is junior onderzoeker webarchief bij de KB, de nationale bibliotheek.
Deze bijdrage komt uit het digitale magazine IP #5/2022. Klik op de onderstaande button om het hele nummer te lezen.