Interview met hoogleraar Rens Bod: digital humanities: digitale sleutel tot complex materiaal van geesteswetenschappen

‘Digital humanities’ is hot. Overal ter wereld schieten vakgroepen en opleidingen uit de grond. Aan de Universiteit van Amsterdam gaat digital humanities met culturele informatiewetenschap samenwerken in een nieuwe bacheloropleiding Media en Informatie. Digital humanities is de ‘digitale sleutel’ tot het complexe materiaal van de geesteswetenschappen. InformatieProfessional sprak met hoogleraar digital humanities Rens Bod over zijn vakgebied.

Door: Ronald de Nijs

Tien, hooguit twintig boeken gebruikt een masterstudent Literatuurwetenschap voor zijn scriptie. Stel nu dat hij een miljoen boeken met elkaar zou willen vergelijken. Hij kan ze onmogelijk allemaal lezen. Aangezien vele uitgaven zijn beschreven en gedigitaliseerd, kan hij er wel algoritmen uit de informatica op loslaten. Hier komt digital humanities om de hoek kijken, legt Rens Bod uit.

Digital humanities-onderzoekers proberen technieken en methoden uit de informatica toe te passen op het materiaal uit de geesteswetenschappen, zodat ze een veel grotere hoeveelheid data kunnen bevragen. Geesteswetenschappen zijn de wetenschappen die de producten van de menselijke geest bestuderen, zoals (kunst)geschiedenis, literatuur- en taal-, muziek- en theaterwetenschap en wijsbegeerte. ‘In digital humanities komen deze wetenschappen en informatica dus bij elkaar. In eerste instantie om onderzoekstools te ontwikkelen,’ aldus Bod. ‘Maar in en door dat ontwikkelproces gaan geesteswetenschappers anders nadenken over het modelleren van taal, muziek, beeldende kunst of literatuur. Op hun beurt krijgen informatici meer inzicht in de ambiguïteit en complexiteit van het geesteswetenschappelijk onderzoeksmateriaal, en hoe dat in algoritmen te vangen is.’

Eén groot vakgebied

Wat nu ‘digital humanities’ heet is allemaal begonnen met de computerlinguïstiek oftewel computertaalkunde. Eind jaren veertig, begin jaren vijftig is er, vooral in de Verenigde Staten, veel geïnvesteerd in computerlinguïstiek. ‘Dit had hoofdzakelijk als doel om Russische wetenschappelijke literatuur, bijvoorbeeld over de atoomtheorie, automatisch te laten vertalen naar het Engels. De ontwikkeling van vertaalmachines was toentertijd gedoemd te mislukken: je hebt hiervoor enorm grote hoeveelheden data nodig, maar de benodigde opslagcapaciteit was nog lang niet beschikbaar,’ zegt Bod.

Na computerlinguïstiek volgde al snel computermusicologie. Dit werden afzonderlijke vakgebieden. Al die computerlinguïsten en diegenen die zich bezighielden met computationele archeologie, computermusicologie, computationele literatuurwetenschap en veel andere vakgebieden hebben langzaamaan via internationale conferenties de handen ineengeslagenen rond het jaar 2000 hebben ze het tot een algemeen, breed vakgebied laten uitgroeien. Dit vakgebied kreeg rond die tijd de naam ‘digital humanities’. Daarvoor, in de jaren negentig, werd het wereldwijd ‘computing and the humanities’ genoemd. In Nederland heette het toentertijd ‘alfainformatica’.

Volgens een ruwe schatting werken er in Nederland in het vakgebied digital humanities inmiddels een paar duizend mensen, aldus Bod. ‘De verklaring voor dit grote aantal ligt in de steeds grotere, bredere groep mensen die zich bezighoudt met digitalisering, waaronder bijvoorbeeld datajournalisten. Veel van deze mensen vinden zichzelf ook een “digitaal humanist”.’

Emoties in films

Een voorbeeld van een onderzoek op het gebied van digital humanities is het project Emotions in Film, verricht door Filmwetenschappen van de Universiteit van Amsterdam en het bedrijf VicarVision. Bod: ‘Het is een wetenschappelijke uitdaging om emoties als angst, vrolijkheid, ontevredenheid of woede te herkennen in personages van films. De algoritmes die daarvoor zijn gebouwd, zijn gebaseerd op een aantal voorbeeldemoties. De eerste stap is dat je de algoritmes moet trainen op een heel groot aantal voorbeelden. Je gaat een duizendtal filmscènes waarin bijvoorbeeld een schrikreactie voorkomt handmatig taggen. Daarin ga je de statistische patroonherkenning algoritmes laten bepalen: bijvoorbeeld alles wat lijkt op een bepaalde mondopening lijkt het meest op een schrikemotie.’

Deze tool maakt het in de toekomst mogelijk een overzicht te vervaardigen van alle angstscènes die in films voorkomen. ‘Dat is van belang voor onderzoekers: hoe wordt bijvoorbeeld angst uitgebeeld als emotie in films van de afgelopen vijftig jaar? Ook is dit interessant voor zowel de eindgebruiker als de filmindustrie. Stel dat je als consument een suspensefilm wilt kijken, dan kun je zoeken op een emotie als angst. De filmindustrie vindt dit op haar beurt interessant omdat ze op die manier heel snel films kan categoriseren en zich kan richten op bepaalde (aan)kopende doelgroepen. Dit is een commerciële waarde van dergelijk onderzoek op het gebied van digital humanities.’

Wetenschappelijke waarde

Interessanter dan de commerciële waarde vindt Bod zelf de wetenschappelijke waarde: is het mogelijk om op een rationele, digitale wijze om te gaan met het complexe materiaal waar geesteswetenschappers mee werken? ‘Dit materiaal is complex omdat het gelaagd is. Neem een opera,’ zegt Bod. ‘Hierin draait het om taal, muziek, beeld, tekst, drama en vele andere zaken. Nog iets: vaak is het onderzoeksmateriaal incompleet. Denk aan oude manuscripten: onderzoekers beschikken nooit over het volledige corpus. De vraag is dan of je over dat incomplete materiaal toch nog iets kunt zeggen.’

Behalve dat het onderzoeksmateriaal van de geesteswetenschappen complex en vaak incompleet is, is het ook ambigu: het materiaal kan verschillende betekenissen hebben. ‘Vanuit wetenschappelijk oogpunt is het dus een uitdaging of we precieze methoden kunnen bedenken zodanig dat we de enorme hoeveelheden materiaal die we tot onze beschikking hebben kunnen interpreteren met computers.’

Betekenis voor bibliotheken

Wat is de waarde van digital humanities-onderzoek voor bibliotheken? ‘Optical character recognition (OCR) bij het scannen en digitaliseren van boeken, kranten en tijdschriften door de Koninklijke Bibliotheek werkte tot nu toe relatief slecht omdat letters onjuist worden “herkend”. Maar ook omdat er vóór de negentiende eeuw nog geen gestandaardiseerde spelling bestond. Zo worden veel woorden uit zeventiende- en achttiende-eeuwse bronnen op meer dan zeventig verschillende manieren geschreven. Dankzij digital humanities-onderzoek worden (op semi-automatische wijze) lijsten van spellingvariaties aangelegd, hetgeen de OCR-methode substantieel verbetert. Een nieuwe ontwikkeling is de syntactische analyse van hele zinnen, waardoor langeafstandrelaties tussen woorden bloot komen te liggen. Maar dat is vooralsnog puur onderzoek, er zijn nog geen praktische toepassingen van.’

Ook wijst Bod op de KB-fellows, wetenschappers die door de Koninklijke Bibliotheek worden uitgenodigd om onderzoek te doen naar haar collecties. ‘Deze fellows kunnen contact leggen met de softwareondersteuners van de KB zodat er nieuwe tools beschikbaar komen. Zo wilde een historicus de herinneringen aan de Eerste Wereldoorlog in Nederland onderzoeken, maar in de digitale collectie van de KB bleek het niet mogelijk om te zoeken op momenten en op plaatjes. Nu wordt er gewerkt aan zo’n zoektool. Hier is de link naar digital humanities extreem kort. Digital humanities heeft rechtstreeks te maken met het zoeken naar structuren in het vooralsnog tamelijk ongestructureerde digitale erfgoed.’

Keerzijde van digitalisering

Onderzoekers kunnen steeds meer doen vanachter hun laptop in hun eigen huiskamer, erkent Bod. Zijn de fysieke bibliotheken dan nog wel nodig? ‘Westerse bibliotheken bevinden zich in een overgangsfase: steeds minder fysieke boeken ten faveure van steeds meer digitale uitgaven. Het mooiste beleid is dat alle boeken en tijdschriften zowel digitaal als fysiek toegankelijk zijn en blijven. De vraag is echter of er genoeg financiële middelen beschikbaar zijn om de fysieke bibliotheken in stand te houden.’

Het zou bijvoorbeeld jammer zijn als de contextuele bibliotheek van het Warburg Institute in Londen zou verdwijnen, mijmert Bod. ‘Hier zijn niet alleen alle boeken van onder andere humanisten te vinden, maar ook alles over de culturele context om die personen heen; bijvoorbeeld wat voor muziek er in de tijd van die wetenschapper werd gemaakt. Als alle boeken er niet meer zijn, mis je die context. Al kun je je afvragen of je dit niet digitaal kunt simuleren.’

Maar alleen digitalisering is ook niet alles: het leidt soms tot verarming als je niet meer de oorspronkelijke bron in fysieke vorm kunt bekijken. Bod: ‘Een boek over rouwverwerking in de negentiende eeuw had een pikzwart omslag, maar omwille van een leesbare tekst op het omslag was de scan bijna wit gemaakt. De zwarte kaft zou mogelijk hebben kunnen verwijzen naar rouw, maar dat mist een onderzoeker die alleen de digitale versie bekijkt.’

Belang van metadateren

Met het toenemende belang van de computer is het de vraag of metadateren door informatieprofessionals nog van belang is. Bod meent van wel: ‘Mensen kunnen nog altijd als beste metadata aan bijvoorbeeld een afbeelding van een schilderij toevoegen, ook al omdat deze werken vaak zo ambigu zijn.’

Een computer is daarentegen goed in het herkennen van precieze symboolreeksen en het perfect uitrekenen van zaken, maar het herkennen van taal, muziek of beeld – dat kunnen mensen beter. Toch valt op het werk van mensen wat af te dingen: ze zijn in vergelijking met computers extreem langzaam en ze kunnen slechts een beperkte hoeveelheid informatie onthouden. ‘Niet elke metadateerder kan meteen een relatie leggen tussen twee schilderijen. Daar is een computer, met alle foutjes van dien, wel goed in.’ De ideale situatie bestaat volgens Bod uit het semi-automatisch metadateren waarbij de mens de metadata voorgesteld door de computer checkt en verbetert.

Leren coderen

Zouden mensen die in een bibliotheek, archief, museum of een kenniscentrum werken moeten kunnen programmeren? Bod wil die vraag generaliseren. ‘Alle geesteswetenschappers zouden moeten leren coderen. Ik zeg coderen, want programmeren is een woord dat afschrikt. Je kunt het breder trekken dan alleen programmeren. Dus ook het omgaan met html. Mijn antwoord zou dus zijn: ja, tot op zekere hoogte; ze hoeven geen volleerde programmeurs te worden.’

‘Heel veel successen in de digitale geesteswetenschappen – van applicaties op het gebied van taal tot muziek – zijn tot stand gekomen doordat een geesteswetenschapper samenwerkte met een informaticus. Het maakt de samenwerking bovendien gemakkelijker en beter als een geesteswetenschapper een beetje weet hoe computerprogramma’s in elkaar zitten. Dan weet je namelijk ook iets over de beperkingen van de programma’s: zaken die helemaal niet mogelijk zijn. Het is dus ook een bepaalde manier van denken die nuttig zou kunnen zijn. Daarom is er binnen de minor Digital Humanities aan de Universiteit van Amsterdam en de Vrije Universiteit de cursus “Coding the humanities” opgezet. In deze cursus leren toekomstige geesteswetenschappers de basisbeginselen van het programmeren.’

Toekomstmuziek

Wetenschappers houden zich binnen digital humanities nu bezig met het bouwen van nieuwe modellen en applicaties met behulp van de modaliteiten van taal, literatuur, film en muziek. Een voorbeeld is het project Music Similarity, waarbij het gaat om de gelijkenis van ritme en timbre in muziek (zie kader). ‘Je zou ook een film, opera of boek door een computer kunnen laten begrijpen. Dus niet alleen de emoties er laten uithalen, maar zelfs een korte samenvatting laten maken,’ zegt Bod. ‘Nu kan dat nog niet. Het zou grandioos zijn! En handig, want voor onze informatievoorziening zijn we nog te veel afhankelijk van mensen terwijl het steeds meer duidelijk wordt dat door de enorme datagroei de wereldwijde cultuurproductie niet meer door mensen kan worden bijgehouden.’

Weer een volgende stap is het kunnen interpreteren met behulp van een computer. Of zelfs een waarde toekennen. ‘Wetenschappers vinden dit nog een stap te ver: dat kunnen computers niet, want het betreft een menselijke eigenschap. Dat zou zo kunnen zijn. Maar ook hier komen de digitale geesteswetenschappen en de kunstmatige intelligentie die streeft naar interpreterende, zelflerende en zelffunctionerende computers of zelfs robots samen. Dat is soms ook wel de kritiek op digital humanities: veel traditionele geesteswetenschappers vinden de digital humanities een vorm van de wetenschappelijke bestudering van de geesteswetenschappen, die niet eigen is aan de geesteswetenschappen zelf, die toch vooral reflecterend en interpreterend van aard zijn. Maar een interpretatie van een opera gemaakt door een computer klinkt in mijn oren als toekomstmuziek.’


TweetGenie

Het digital humanities-project TweetGenie kan aan de hand van taalgebruik de leeftijd en het geslacht van Nederlandse twitteraars raden. ‘TweetGenie richt zich in principe op alle Nederlanders, maar in het bijzonder op (socio)linguïsten, computer scientists en het bedrijfsleven dat geïnteresseerd is in de achtergronden van twitteraars. Overigens heeft ook de politie Noord-Holland belangstelling: zij willen bij dreigtweets graag een daderprofiel kunnen opstellen,’ aldus Theo Meder, volksverhaalonderzoeker bij het Meertens Instituut.

‘TweetGenie was het belangrijkste onderdeel van TINPOT (Taal, Identiteit, Netwerken en Productgeruchten Op Twitter), een in 2013 afgerond digital humanities-project van het Meertens Instituut. TweetGenie is ontwikkeld samen met de Universiteit Twente en private partner Teezir, een bedrijf dat stemmingen over producten bijhoudt op sociale media. ‘TweetGenie blijft als website (www.tweetgenie.nl) bestaan. Het is een zelflerend systeem: mensen kunnen correcties over hun leeftijd of geslacht melden en TweetGenie zal dan rekening houden met deze nieuwe input,’ aldus Meder.

Een vervolg op dit project is onlangs gestart: Twidentity. Meder: ‘Ditmaal wordt er een taaldetector gemaakt voor het Fries en de Limburgse dialecten. We gaan kijken wat de samenhang is tussen taalkeuze en identiteit. Over welke onderwerpen twitteren mensen in het Fries of Limburgs, en over welke in het Nederlands?’


Music similarity

Er zijn allerlei apps beschikbaar waarmee je muziek kunt vergelijken. Shazam kan bijvoorbeeld een stukje muziek herkennen op basis van ‘fingerprinting’, waarbij de exacte opname gevonden wordt. Hierbij gaat het dus om de exacte gelijkenis van muziek. Muziek vinden die niet exact maar slechts in een bepaalde mate op een ander stukje muziek lijkt, is daarentegen veel moeilijker. En dat is precies de uitdaging van Music Similarity, een digital humanities-project. ‘Bij dit project gaat het om de gelijkenis van het ritme en timbre in muziek,’ vertelt Aline Honingh, onderzoeker bij het ILLC (Institute for Logic, Language and Computation) van de Universiteit van Amsterdam. Zij startte het project in 2012 in samenwerking met Elephantcandy, een audio-app bedrijf.

‘Het verwachte eindproduct van het Music Similarity-project is een app waarbij stukjes muziek gevonden kunnen worden die op elkaar lijken wat betreft timbre en ritme. Het zou een app voor dj’s kunnen worden, maar misschien ook wel voor muziekliefhebbers in het algemeen,’ aldus Honingh. In het project is geprobeerd de gelijksoortigheid (similarity) van timbre en ritme te modelleren voor elektronische dancemuziek. ‘We zijn nu in de afrondingsfase van het project. Het ontwikkelde model wordt momenteel getest op perceptuele data, dat verkregen is uit een experiment waarbij mensen moesten aangeven in welke mate ze stukjes muziek op elkaar vonden lijken op grond van ritme of timbre. De resultaten hiervan willen we publiceren in een wetenschappelijk tijdschrift. Elephantcandy legt zich vervolgens toe op het afronden van de app,’ aldus Honingh.


Minor ‘Digital Humanities’

Studenten in de geesteswetenschappen kunnen een minor ‘Digital Humanities’ volgen. ‘Het is niet als een volledige bachelorstudie beschikbaar. Het zou namelijk vreemd zijn als je iets met digital humanities doet zonder iets af te weten van een specifieke geesteswetenschap,’ zegt Rens Bod. ‘Het is een bijvak dat je een half jaar kunt volgen. Ook kunnen studenten het combineren met het schrijven van hun bachelorscriptie. Daarnaast bieden we een “Crash Course” aan, waarin vooral stafleden van de faculteiten van de geesteswetenschappen worden bijgespijkerd in circa zestien geavanceerde softwaretools op het gebied van Digital Humanities. Met een van die tools kun je bijvoorbeeld kleuren in schilderijen herkennen.’


Met dank aan Frank Huysmans.

Ronald de Nijs is eindredacteur van InformatieProfessional.

Deze bijdrage komt uit IP nr. 6 / 2014. Het gehele nummer kun je hier lezen