Dataretrieval is niet alleen een essentiële 21ste-eeuwse skill binnen de academische en financiële wereld, maar inmiddels ook binnen de journalistiek. Hoe komen datajournalisten aan hun cijfermateriaal? Hoe analyseren ze de databestanden? En wat betekent dit voor informatieprofessionals?
Door: Lowie van Eck
In 2004 werd het dankzij webbrowser Tor mogelijk om anoniem op het internet te surfen en weer vijf jaar later konden internetters anoniem betalen met bitcoins. Het resultaat van deze twee ontwikkelingen: de opkomst van illegale marktplaatsen. Journalist Sybren Kooistra maakte dankbaar gebruik van Tor om verschillende anonieme websites op het deep web te bezoeken en zo data over illegale Nederlandse marktplaatsen voor drugs te verzamelen. Met deze data had Kooistra voldoende materiaal voor de Volkskrant-webspecial ‘Marktplaats van de drugs’ die hij samen met Jeroen Trommelen schreef.
De special van de Volkskrant is een goed voorbeeld van hoe journalisten zelfvergaarde data kunnen gebruiken in een artikel. Kooistra benadrukt dat het vergaren van dergelijke data en het kunnen werken met eigen bronnen essentieel is voor een journalist: ‘Een journalist moet informatie kunnen opdiepen die niet voorhanden lijkt.’
Het opdiepen van onbekende data is een belangrijke tak van datajournalistiek, zegt ook onderzoeks/datajournalist Jody Ummels. ‘Al ben ik geneigd het dan eerder onderzoeksjournalistiek te noemen.’ Toch zijn er veel meer data beschikbaar dan men meestal denkt. ‘Het weerbericht en de beurskoersen zijn de meest elementaire en naakte vorm van datajournalistiek,’ aldus Ummels. ‘Anders gezegd: zoveel nieuws is er nu ook weer niet onder de zon; journalisten hebben altijd al met data gewerkt.’
Uit praktische overwegingen richt Ummels zich voor een groot deel op al beschikbare data. ‘Daarmee zijn óók belangrijke verhalen te vertellen. Bovendien werk ik vooral voor regionale omroepen met beperkte budgetten; ik kan het me financieel niet permitteren om maanden in één verhaal – en het bijbehorende data-onderzoek – te steken. Ik pluk van het “laaghangend fruit”, al wil dat zeker niet zeggen dat ik vind dat je van verstopte data moet wegblijven.’
Verschil
Het grootste verschil tussen datajournalistiek en andere vormen van journalistiek is de manier van denken, vindt Thomas Boeschoten. Volgens hem zijn datajournalisten in staat om mythes te ontkrachten. Daarbij is data niet alleen een manier om een journalistiek verhaal te vertellen maar ook een hulpmiddel voor factchecken: ‘Sommige journalisten zijn heel erg geneigd om bepaalde uitspraken te doen die niet waar zijn. Op het moment dat je al een beetje in data denkt, maak je dat soort fouten niet meer. Voordat je zegt dat er heel veel immigranten naar Nederland komen, kijk je eerst even naar de data.’ Boeschoten is de oprichter van de Utrecht Data School, waar hij in samenwerking met Universiteit Utrecht cursussen en schoolblokken verzorgt over data. Daarnaast is hij bij Windesheim Zwolle bezig met de implementatie van data binnen het onderwijs bij de opleiding Journalistiek.
Tijdens zijn colleges gebruikt hij het volgende voorbeeld om het onderwerp data te introduceren: vanaf station Zwolle richting de campus Windesheim ligt de straat bezaaid met sigaretten en dat feit alleen betekent dat een dataset voor het oprapen ligt. Het zijn eerst alleen maar sigaretten, dingen die niet gevangen zijn in data. Maar als je de sigaretten zou tellen, markeren en de locaties ervan zou noteren, dan ben je bezig met het ontdekken van verhalen en patronen. Datajournalisten zijn in staat om zich te realiseren welke verhalen er in gegevens zitten. In het geval van de sigaretten kan je iets zeggen over gemeentelijk beleid op het gebied van sigaretten. De gemeente zou asbakken kunnen plaatsen op plekken waar heel veel sigaretten liggen, omdat je door gebruik te maken van de dataset weet wanneer iemands sigaret op is.
Jerry Vermanen, van NU.nl overgegaan naar KRO-NCRV, vindt dat journalisten moeten leren denken in cijfers wanneer ze gaan werken met data. Als voorbeeld noemt hij een nieuwsbericht over geweld tegen conducteurs. ‘In zo’n geval moet je niet alleen in incidenten denken, maar dan ook bedenken: hier moeten we meer en grotere cijfers bij verzamelen.’ Net als bij het voorbeeld van de sigaretten is het belangrijk om patronen en verhalen te kunnen herkennen in data.
Technieken
Er is niet één techniek om met data te werken. Het is afhankelijk van de situatie welke stappen je moet volgen, en van welke tools je gebruik gaat maken. Het vergaren van de data is de eerste stap. De gemakkelijkste manier is door het downloaden van datasets van websites, bijvoorbeeld van het CBS, of dataportalen. Ook de overheid heeft een dataportaal (data.overheid.nl) waar datasets van verschillende overheidsorganisaties beschikbaar zijn.
Jody Ummels beschrijft de methode die hij toepaste voor het schrijven van een artikel over de woningbouwcrisis. Op Funda bekeek hij hoeveel huizen er te koop stonden in Den Bosch. ‘De uitkomst van deze zoekopdracht is een cijfer, bijvoorbeeld 1030. Hier kan je nog geen conclusies uit trekken, omdat je niet weet of het veel of weinig is.’ Voor verschillende steden zocht hij het aantal huizen dat te koop stond op en noteerde deze in een Excel-sheet. Dat doet hij sinds 2011, waardoor hij inmiddels een behoorlijke database heeft opgebouwd.
‘Na vijf jaar zie je patronen ontstaan. Het einde van de koopwoningencrisis kon ik zo al zien aankomen in mijn eigen cijfers zonder dat het breed in de media was.’ Deze methode komt vooral van pas wanneer cijfers wekelijks veranderen, en daarna niet meer gepubliceerd worden op het internet.
Data kunnen ook door middel van ‘scrapers’ vergaard worden. ‘Scrapen’ wordt gebruikt wanneer de data niet opgeslagen zijn in een bestandsformaat, maar wel te vinden zijn op een html-pagina. Sybren Kooistra maakte gebruik van het computerprogramma Watir. Dit programma is aan te bevelen voor journalisten die weinig ervaring hebben met programmeertalen. Met Watir schreef hij een script dat alle relevante pagina’s doorliep en de nodige data downloadde. Hiermee verzamelde Kooistra informatie over de drugs die door Nederlandse drugsmarktplaatsen verkocht werden, cijfers over de groei en omzet van deze marktplaatsen, en het type drugs dat er verkocht werd.
WOB-verzoek
Bovenstaande manieren om data te vergaren worden gebruikt wanneer data op het internet te vinden zijn. De informatie waarover je wilt beschikken is echter niet altijd openbaar gepubliceerd. Een voorbeeld hiervan zijn de cijfers over inbraken. Jerry Vermanen dient elk jaar een WOB-verzoek in bij de politie om over deze gegevens te kunnen beschikken. ‘Als ik een artikel over inbraken wil schrijven, moet ik een WOB-verzoek sturen en daarna twee maanden wachten.’ Deze data wordt volgens Vermanen door verschillende media gebruikt, waardoor hij het liefst ziet dat de politie in de toekomst actief data openbaart in een portaal.
Onderwerpen die dicht bij de leefomgeving en de leefsfeer van mensen zitten en waar je belangrijke conclusies uit kunt trekken, zijn volgens Vermanen niet altijd even goed beschikbaar. In zijn ogen moeten gegevens waar burgers belang bij hebben meer toegankelijk worden voor iedereen. ‘Het is handig om iemand de mogelijkheid en kans te geven om een dubbelcheck te maken. Dus maak die gegevens openbaar voor iedereen.’
Volgens Jody Ummels is het zelfs gevaarlijk om de journalist over te slaan. ‘Transparantie bestaat in mijn ogen niet zonder tussenkomst van een intermediair.’ Dit komt voornamelijk doordat het gevaar bestaat dat de data verkeerd geïnterpreteerd kunnen worden, bijvoorbeeld bij het openbaar maken van lokale inbraakcijfers. Deze gegevens zijn volgens hem alleen relevant wanneer het gerelateerd wordt aan het aantal huizen in een wijk.
Ummels benadrukt dat de partij die de data communiceert en de journalist overslaat altijd een eigenbelang heeft. ‘Denk bijvoorbeeld aan de politie en de politiek die willen communiceren dat het veiliger wordt en de data dusdanig presenteren dat dat er hoe dan ook uitkomt.’
Analyse
Na het vergaren van de data moeten ze worden geanalyseerd. Vaak worden data op het internet aangeboden als pdf. Dit bestandsformaat is niet machine-leesbaar, waardoor er geen data-analyses mee uitgevoerd kunnen worden. Door middel van tools kunnen pdf-bestanden omgezet worden naar Microsoft Excel. Tabula is een gebruiksvriendelijke tool die dit met enkele klikken voor je doet. Vervolgens moeten de data nog wel opgeschoond worden. Opmaak van bestanden zorgt er in veel gevallen voor dat het Excel-bestand slordig geëxporteerd wordt; dit gebeurt wanneer teksten dicht tegen veldlijnen zitten of teksten lang zijn en afgebroken worden door Tabula.
Voor het opschonen, analyseren en visualiseren wordt momenteel Microsoft Excel – of een open source-variant daarvan – het meest toegepast. Google Sheets is een veelgebruikt open source-alternatief voor Excel.
Toekomst
Jody Ummels voorziet dat de datajournalist van de toekomst zijn werkzaamheden vooral uitvoert door gebruik te maken van databases. Over tien jaar werken datajournalisten niet meer met Excel, meent hij. ‘Excel-vaardigheden zijn dan dermate gemeengoed geworden, ook op redacties, dat je je als datajournalist alleen nog kunt onderscheiden van je collega’s door goede databasevaardigheden.’ Hiervoor moet je als journalist wel kennis hebben van open source-pakketten als MySQL.
In combinatie met de visualisatietool D3.js kunnen er visualisaties worden gemaakt, waarbij de lezer door middel van een zoekfunctie of klikken de dataset specifieker kan verkennen. Er zijn vooralsnog weinig journalisten die gebruik maken van deze tool.
Kansen voor datajournalistiek
Voor informatiespecialisten liggen er genoeg mogelijkheden om een bijdrage te leveren aan datajournalistiek, variërend van het vergaren van de data tot de visualisatie ervan. Ook kunnen ze een belangrijke rol spelen op het gebied van transparantie. Er zijn genoeg datasets die bruikbaar zijn voor de journalistiek, maar nog niet geopenbaard zijn. Een voorbeeld is de data over inbraken waarover de politie beschikt (zoals hierboven genoemd door Jerry Vermanen). Informatieprofessionals die bij overheidsinstellingen werken, kunnen hier een voortrekkersrol in spelen.
Lowie van Eck is informatiespecialist in opleiding. In 2016 deed hij in het kader van een stage bij de Open State Foundation onderzoek naar datajournalistiek.
Tools
> open source tool Watir (watir.com)
> open source tool Tabula (tabula.technology)
> Google Fusion Tables, een open source alternatief voor Microsoft Excel
> MySQL (www.mysql.com)
> ElasticSearch (www.elastic.co)
> open source tool D3.js (d3js.org)
Niet alleen slecht nieuws brengen
‘Datajournalistiek biedt een mogelijkheid om af te rekenen met een aloude makke in de journalistiek,’ vindt journalist Jody Ummels. ‘En daarmee bedoel ik dat we als journalisten alleen maar slecht nieuws brengen. Neem bijvoorbeeld de huizenmarkt en de verkoopgegevens op Funda: je zou elke maand een overzicht van de woningverkopen moeten publiceren. Als het goed gaat, als het slecht gaat en als er niets veranderd is. Net als het weerbericht, net als de beurskoersen op RTL Z. En als er iets heel bijzonders is, breng je het prominenter. Wat we in de klassieke journalistiek doen, is dat we alleen iets over de huizenmarkt melden als deze markt instort. Kortom, als het slecht nieuws betreft. Maar dat de huizenmarkt inmiddels is opgekrabbeld, heeft lang niet diezelfde aandacht gekregen.’
Deze bijdrage komt uit IP nr. 3 / 2017. Het gehele nummer kun je hier lezen.