Door Leen Liefsoens
In zijn presentatie tijdens de VOGIN-IP lezing 2021 deed datajournalist Jerry Vermanen de oproep om te leren scrapen. Hoe pak je dat aan? Deze aflevering van Lifehacking gaat in op webscraping en de gratis scrapingtools Octoparse en ParseHub.
Wat is webscraping?
Webscraping is een techniek die je kunt gebruiken om grote hoeveelheden gegevens van websites te halen, waarbij de data worden geëxtraheerd en opgeslagen in een lokaal bestand of in een database (bijvoorbeeld spreadsheet). Webscraping focust daarbij ook op de omzetting van ongestructureerde data, meestal in HTML-formaat, naar gestructureerde data. Deze data kun je inzetten voor informatievergaring en onderzoek. Bij webscraping gaat het om een geautomatiseerd proces, zodat je de gegevens van de websites niet handmatig hoeft te kopiëren en om te zetten.
Python
Vaak wordt webscraping gedaan met een programmeertaal zoals Python. Python heeft namelijk een extra code waarmee scrapen soepeler verloopt. Deze code heet Beautiful Soup. Wil je hiermee aan de slag gaan, dan is het Handboek Webscraping met Python van Ryan Mitchell een handig hulpmiddel. Scrapen met Python is ook goed gedocumenteerd op internet. Onder andere op het platform towardsdatascience.com vind je veel artikelen, waaronder een reeks van de Indiase datawetenschapper Kajal Yadav. Zij schrijft over het inzetten van webscraping bij de ontwikkeling van een detectiesysteem voor nepnieuws. Het hele platform is sowieso het volgen waard voor informatieprofessionals die geïnteresseerd zijn in datawetenschap.
Scrapingtools
Is het werken met alleen een programmeertaal een stap te ver voor jou? Dan kun je tools inzetten voor het scrapen zonder dat je zelf hoeft te coderen. Jerry Vermanen gaf in zijn presentatie de betaalde dienst Harvest the Web als voorbeeld, maar er zijn ook tools die gratis kunnen worden ingezet, zoals Octoparse en ParseHub.
Workflow
Octoparse (Windows en MacOS) en ParseHub (Windows, MacOS en Linux) zijn vergelijkbare tools. Ze hebben een eenvoudige grafische interface, en bij beide ga je aan de slag met een stapsgewijze ‘workflow’ om aan te geven hoe de tools informatie van websites moeten halen. Beide tools kunnen goed overweg met zowel statistische als dynamische websites. ParseHub heeft iets meer instelmogelijkheden voor de web crawl (data van websites halen), maar Octoparse is dan weer beter in het omzetten van ongestructureerde data in gestructureerde data.
Leercurve
Met de gratis versie van Octoparse kun je onbeperkt webpagina’s doorzoeken en tot tienduizend records per bestandsexport opslaan op je eigen computer (local based). Met een gratis account belooft ParseHub in veertig minuten gegevens van maximaal tweehonderd pagina’s per keer op te halen. Je kunt maximaal vijf actieve projecten opslaan, en de data worden gedurende veertien dagen op de servers van ParseHub bewaard (cloud based).
ParseHub vereist een iets hogere leercurve dan Octoparse. Beide tools hebben leerzame tutorials en handige documentatie. Gebruik de beginnersgids van ParseHub. Voor Octoparse zijn er acht leerzame stap-voor-staplessen en het gratis handboek voor beginners. Ook het eerdergenoemde platform towardsdatascience.com bevat uitgebreide handleidingen, geschreven door datawetenschappers die zelf aan de slag zijn gegaan met de tools.
De slides van de presentatie van Jerry Vermanen tijdens de laatste VOGIN-IP-lezing 2021 vind je hier; de videoregistratie ervan kun je hier bekijken.
Leen Liefsoens is redacteur van IP en senior informatiespecialist bij de bibliotheek van De Haagse Hogeschool.
Deze bijdrage komt uit het digitale magazine IP #1/2022. Klik op de onderstaande button om het hele nummer te lezen.