Column: Big, bigger, biggest

Door: Eric Sieverts

In een presentatie ‘How search works – from algorithms to answers’ meldde Google vorig jaar intussen 30 biljoen (in het Engels 30 trillion) verschillende url’s geregistreerd te hebben. Zulke getallen gaan het menselijk voorstellingsvermogen ver te boven. Daarom was ik maar eens gaan rekenen. Als je elk van die url’s op een apart velletje papier zou opschrijven en die netjes zou opstapelen, zou dat acht stapels papier opleveren, elk van hier tot aan de maan. Toen ik kortgeleden die presentatie nog eens bekeek, zag ik dat Google dat aantal url’s intussen tot 60 biljoen had verdubbeld. Dat rekent makkelijk: nu dus zestien stapels tot aan de maan. Dat is nog eens big data.

Maar wees gerust: gelukkig zijn die webpagina’s niet allemaal vindbaar. Hoewel Google daarover geen cijfers bekendmaakt, zijn er schattingen dat hun index enkele honderden miljarden webpagina’s doorzoekbaar maakt. Dat is nog geen procent van al die url’s. Kennelijk is men goed in staat enorme aantallen identieke pagina’s, spam en linkfarms als zodanig te herkennen en uit te sluiten. Toch is ook dat aantal pagina’s nog aardig big.

Big data zijn intussen hot. Alle grote bedrijven schijnen ze te hebben en er iets mee te willen. Onlangs werd in een kritisch stukje onomwonden gesteld dat bedrijven die het meest de mond vol hebben over hun big data-projecten, vaak het minst idee hebben wat ze er eigenlijk mee willen. En inderdaad, zolang op veel plekken zelfs small data nog nauwelijks terug te vinden is, vraag je je af wat ze dan met big data moeten.

Intussen werken we natuurlijk allemaal hard mee om big data te genereren. Door ons zoek-, klik-, browse-, tweet- en like-gedrag dat overal geregistreerd wordt. Daarnaast door alle foto’s en video’s die we maken, doorsturen, uitwisselen, opslaan in de cloud, en voor alle zekerheid nog een paar keer kopiëren. Dat maakt dat al een hele tijd onze dataproductie elk jaar bijna verdubbelt. En dat gaat nog wel even door als ook onze huishoudelijke apparaten in het ‘internet of things’ hun gegevens gaan toevoegen. Zo’n jaarlijkse verdubbeling betekent dat we elk jaar evenveel bytes produceren als alle voorgaande jaren samen. Toch moet dat eens ophouden. Anders produceren we in het jaar 2113 evenveel bytes als er atomen in onze aardbol zitten.

Er zijn dus natuurlijke ‘grenzen aan de groei’. Ruim voor 2113 zullen we al moeten ophouden met die jaarlijkse verdubbeling van onze productie. En we moeten ook niet meer alles wat we produceren willen bewaren. Archivarissen zijn van oudsher goed in het vaststellen van selectiecriteria wat wel en niet bewaard moet worden. Dat moeten ze ons gewone mensen ook maar eens leren, zodat we niet meer allemaal onze volledige digitale voetafdruk tot in de eeuwigheid duurzaam willen opslaan.

Eric Sieverts is redacteur van InformatieProfessional en freelance docent en adviseur.

Deze bijdrage komt uit IP nr. 8 / 2013. Het gehele nummer kun je hier lezen