Column: Big Data Bla Bla

Door: Geert-Jan van Bussel

In 2008 schreef Chris Anderson, redacteur bij Wired, dat de zondvloed aan data (later big data genoemd) en nieuwe analysetools de wetenschappelijke methode onnodig maakten en een nieuwe manier waren om de wereld te begrijpen. ‘Correlation supersedes causation, and science can advance even without coherent models, unified theories, or really any mechanistic explanation at all’.

Big data-blabla’ers (ook evangelisten genoemd) hebben deze idee met vele anekdotes ondersteund en verkondigd. Volgens hen breekt er een nieuwe tijd aan: de dataficatie van onze maatschappij maakt alles meetbaar en doet alle bestaande problemen verdwijnen. Gemakshalve wordt eraan voorbijgegaan dat (zoals onderzoeksbedrijf Gartner stelt) 55 procent van alle big data-projecten mislukt, vooral omdat ze niet de optimistische resultaten leveren die vooraf zijn ingecalculeerd. Zélfs het paradepaardje van de big data-evangelisten niet: het in 2008 gestarte Google Flu Trends (GFT). Het geprofeteerde succes bleek rafelrandjes te kennen. In 2014 werd in Science aangetoond dat de resultaten (nog steeds) niet overeenkwamen met de ‘echte’ feiten. Het voorspellen van grieptrends lukte vele malen beter met drie weken oude, op traditionele wijze verzamelde en geanalyseerde gegevens van griepcentra.

De 500 miljoen zoekvragen per dag van Google leveren gevisualiseerd dus nog geen accuraat beeld van wat er werkelijk gaande is. Dat kan niet als (zoals bij GFT) de gebruikte gegevens onbetrouwbaar en onjuist zijn en/of de verkeerde gegevens zijn verzameld of geselecteerd. In Science werd aangetoond dat betrouwbare voorspellingen voor de verspreiding van griep mogelijk zijn als de analyses uit big data gecombineerd worden met traditionele, wetenschappelijke vormen van gegevensverzameling en -analyse. Een van de problemen van GFT (en andere analyses uit big data) is dat de resultaten veelal niet gerepliceerd kunnen worden. Dit komt vooral doordat algoritmes, formules, zoektermen en dataselecties geheim zijn en eigendom van private bedrijven.

Ik waag te betwijfelen of we wel alleen op data kunnen vertrouwen als indicator voor beslissingen, welvaart of zingeving. Jay Liebowitz propageert in zijn boek Bursting the Big Data Bubble om naast de resultaten van data-analyse in beslissingsprocessen (met dan ook nog een voorkeur voor ‘small data’) ruimte te laten voor ervaring en intuïtie.

Het is zeker dat door ervaring en intuïtie fouten gemaakt (en voorkomen!) worden. Het is zeker dat data beslissingen kunnen verbeteren (als ze objectief worden gebruikt!). Het is ook aangetoond dat we gegevens negeren als ze niet overeenkomen met wat we subjectief denken (zelfs als de objectiviteit van die gegevens vaststaat!).

Big data-evangelisten verkondigen dat ‘you can only manage what you measure’. Blabla. Want de financiële crisis heeft aangetoond dat we slecht zijn in het managen van wat we meten. Mislukte fusies en productlanceringen, veelvuldige imagoproblemen en social media-escapades geven aan dat we vooral beter moeten worden in het managen van datgene wat we niet kunnen meten.

Met of zonder big data.

Geert-Jan van Bussel is ondernemer en lector Digital Archiving & Compliance bij de Hogeschool van Amsterdam.

Deze bijdrage komt uit IP nr. 4 / 2015. Het gehele nummer kun je hier lezen