Column: Dusty data librarianship

Door: Frank Huysmans

Met het toetsenbord kon je iemand z’n hersens inslaan. De kabel waarmee het verbonden was aan de terminal leek op kingsize trekdrop. De terminal zelf: monochroom scherm, groen, diameter schat ik uit mijn herinnering op 10 inch max. Geen muis. Wel pijltjes en backspace. Uit zelfbescherming leerde ik mezelf met zes vingers typen. Wijs-, middel- en ringvinger van beide handen. Anders was het toetsen omlaagduwen niet vol te houden.

We zijn terug in 1990. RSI bestond nog niet en ik had mijn eerste universitaire baantje als student-assistent. Datacleaning. Bijna 1000 enquêtes en tijdbestedingsdagboekjes waren ingeklopt en nu was het mijn taak er eens flink de stofkam door te halen. Foutjes van de datatypiste opsporen, checken met de vragenlijst en verbeteren. Met kruistabellen tegenstrijdigheden opsporen en verhelpen. Denk aan zwangere mannen, autorijdend televisiekijken en andere combinaties die je toen nog gerust als onmogelijkheid kon beschouwen. En toen dat werk erop zat, maakte mijn leidinggevende er een boek van waarin alle variabelen met hun frequentieverdelingen een voor een werden afgedrukt. Een codeboek heette dat. Het hele pakket werd aangeboden bij het Steinmetz-archief voor sociaalwetenschappelijke databestanden.

Voor het afnemen van de vragenlijsten waren interviewers van vlees en bloed van Roodeschool tot Cadzand op pad geweest. Elk adres was minstens twee keer bezocht. Een keer om de ongelukkigen die in de steekproef terecht waren gekomen over te halen aan het onderzoek mee te doen. En een keer om de ingevulde vragenlijsten met de respondenten op onvolledig- en onjuistheden door te nemen. Dat herhaalde huisbezoek kostte een smak geld en daarom moest de boel netjes worden gedocumenteerd. Zodat het bestand ook toegankelijk was voor anderen dan de oorspronkelijke onderzoekers.

Nu universitaire beleidsnota’s bol staan van big data en digital humanities, denk ik wel eens terug aan dat eerste universitaire baantje. En niet met weemoed. Wat een rotwerk was dat zeg. Wel de zorg waarmee de onderzoeksdata werden omringd. Zo’n bestand van een schamele megabyte werd niet met de wereld gedeeld voor er van alle kanten tegenaan was geklopt. Dat gaat in 2013 toch even anders. De bepaald niet stofvrije transactiebestanden vliegen je bij gigabytes om de oren. Denk aan gebruiksregistraties van bibliotheken. Leuk om daar eens in te duiken om te zien of er patronen zitten in de uitleen van boekengenres. Maar wie lenen er allemaal op een en hetzelfde pasje? Moeder leent ook de thrillers voor vader. En als het te veel geld gaat kosten, lenen moeder en vader mee op het pasje van dochterlief zolang ze nog van contributiebetaling is vrijgesteld. Onderzoek je dus individueel of gezinsgedrag? In feite een beetje van beide zonder dat je weet wat precies.

Aan het ordenen, metadateren en ontsluiten van data(bestanden) is grote behoefte. Maar meer nog aan het schoonmaken ervan. Ik heb nu al medelijden met data librarians die vriendelijk zullen worden verzocht ook dit monnikenwerk voor hun rekening te nemen. Zelfs al zitten ze achter een 27-inch iMac met Magic Trackpad en dito Mouse.

Frank Huysmans is redacteur van InformatieProfessional, bijzonder hoogleraar bibliotheekwetenschap aan de UvA en zelfstandig onderzoeker en adviseur.

Deze bijdrage komt uit IP nr. 3 / 2013. Het gehele nummer kun je hier lezen