Bezoek aan Data Summit in New York: Big data vanuit de Big Apple

Justin van der Vlies won de Young Talent Award op het KNVI Jaarcongres 2016. Als prijswinnaar mocht hij van sponsor Victorine van Schaickfonds | KNVI een congres naar keuze bezoeken. Afgelopen mei ging hij naar New York, waar hij op het Data Summit-congres verschillende big data-trends langs zag komen.

Door: Justin van der Vlies

‘Je kunt niet om de de big-datarevolutie heen. Big data is alomtegenwoordig, het beïnvloedt onze levens op alle niveaus.’ Met die woorden trapte keynotespreker Thornton A. May, CEO van FutureScapes Advisors, het Data Summit-congres in New York af. Het zijn misschien wat voor de hand liggende uitspraken op een congres dat hoofdzakelijk over big data gaat. Big data wordt overal opgeslagen en vastgelegd. Maar hoe zit het met onze grip hierop? Kunnen we, gebruikmakend van de huidige ontwikkelingen, effectief met de almaar toenemende hoeveelheden big data aan de slag gaan?

Met deze vragen in mijn achterhoofd ging ik naar het Data Summit-congres. Mijn vragen werden mede ingegeven vanwege mijn afstudeerproduct: de Datastroomkaart (zie ook kader). Dit is een hulpmiddel/praatplaat waarmee ik alle benodigde datastromen voor één specifiek proces, zoals het opstellen van een grondwatermodel, volledig kan uitwerken. Door het opstellen van dit totaaloverzicht wordt duidelijk welke informatie nu echt gewenst is om een proces uit te kunnen voeren.

Information governance

Het gebruik van daadwerkelijk gewenste informatie is iets wat ook terugkwam op het congres. Op de tweede dag gingen keynotesprekers Linda Sharp, Associate General Counsel bij ZL Technologies, en Bennett Borden, Chief Data Scientist van Drinker Biddle, in op information governance. Hiermee doel ik op datgene wat voor organisaties nodig is om de maximale waarde uit informatie te halen, terwijl de kosten en risico’s zoveel mogelijk beperkt blijven.

Beide sprekers stelden dat organisaties zich constant moeten afvragen waarom ze bepaalde informatie in huis hebben en produceren. ‘Hebben we wel inzicht in onze huidige informatiehuishouding en draagt alles wat we op dit moment produceren wel bij aan onze doelstellingen?’ Als het antwoord op deze vraag duidelijk is, kan je gaan kiezen uit mogelijke oplossingen. De sprekers gaven aan dat de kern van information governance draait om deze mogelijkheden zoveel mogelijk te verenigen met de belangen van verschillende stakeholders.

Gerichtere resultaten

Ter illustratie noemden de sprekers de steeds gerichtere marketingresultaten die ontstaan uit een combinatie van information governance en big data analytics. ‘Breng het juiste product bij de juiste consument op het juiste tijdstip op de juiste locatie met de juiste kosten.’ ‘De huidige reclameblokken op tv zijn bijvoorbeeld nog steeds gericht op een heel brede doelgroep, terwijl jouw Axe-reclame slechts voor zo’n drie procent van deze doelgroep relevant is.’ Enkele grote organisaties bereiken al gerichtere resultaten bij hun klanten. Zo geven bedrijven als Netflix, Amazon en Google met behulp van zogenaamde analytics klanten en bezoekers al persoonlijke aanbevelingen.

Wanneer kleinere organisaties, via big data analytics, ook meer gerichte resultaten willen bereiken, is information governance belangrijk. Ga als professional eerst na op welke data jouw organisatie zich nu echt richt en denk na over de vraag waarom het bedrijf deze data opslaat. Er is nu namelijk nog te veel sprake van datgene wat Gartner ‘dark data’ noemt. Dit is informatie die door bedrijven verzameld, verwerkt en opgeslagen wordt voor reguliere werkzaamheden, maar (nog) niet voor andere doeleinden wordt ingezet. In duidelijkere cijfers: bedrijven blijken slechts twaalf procent van hun beschikbare data te gebruiken. Dit getal werd door de sprekers aangehaald vanuit een Strategy Spotlight* van Forrester.

Kapitaal

Ondanks dat organisaties nu (nog) niet veel met hun beschikbare data doen, definieerden verschillende sprekers een organisatie als een data-organisatie. Een interessante kijk op deze data-gedrevenheid kwam van Paul Sonderegger, big data-strategist bij Oracle. In zijn presentatie over ‘Data Capital’ noemde hij data letterlijk ‘kapitaal’. ‘In economics, capital is an asset produced through some process and is then a necessary input to some other good or service. Data fulfills this definition. And if you don’t have the data necessary to create a particular product or service but your rival does, you’re in trouble.’

Tegenstrijdigheid

In de voorgaande tekst is een tegenstrijdigheid te constateren. Aan de ene kant vindt er om ons heen een data-explosie plaats, waarbij het voor organisaties van groot belang is om aan te haken. Aan de andere kant slagen niet alle organisaties daarin omdat zij niet kunnen aantonen waarom ze hun huidige data in bezit hebben of produceren. Eerst moeten ze goed op een rij hebben wat ze met de data willen.

Eenzelfde soort tegenstrijdigheid kwam aan bod in de introductie van Joseph de Buzna, vice-president bij HVR Software. Hij beschreef de huidige ontwikkelingen bij bedrijven met aan de ene kant meer data (in afgeschermde silo’s) en kleinere IT-teams die die data moeten analyseren. Aan de andere kant staat dat bedrijven wel steeds sneller willen beslissen en steeds beter willen voorspellen. Het is dus nog maar de vraag in hoeverre deze verwachtingen realistisch zijn omdat deze kleinere IT-teams met steeds meer data aan de gang moeten.

Aangezien er niet een pasklaar antwoord is om de door mij genoemde tegenstrijdigheid op te lossen, doe ik eerst een stap terug en beschrijf ik mijn congreservaringen in het algemeen. Voorafgaand aan mijn bezoek aan New York had ik een aardig idee van de thema’s die ik op het congres kon verwachten. Ik was vooral benieuwd naar het publiek en naar de daadwerkelijke inhoud van de lezingen. Uiteindelijk gaven de meeste keynotes, zoals eerder beschreven, elk een eigen beeld van het big data-landschap. De geconstateerde tegenstrijdigheid is mijn eigen samenvatting van de huidige situatie.

Alles-in-een-oplossingen

Het is jammer dat het overgrote deel van de kleinere presentaties werd verzorgd door (Amerikaanse) softwareleveranciers die ieder hun eigen applicaties promootten. Het ging daarbij vooral om alles-in-een-oplossingen. Hoe meer presentaties ik bijwoonde, hoe meer ik het idee kreeg dat dit precies was wat het publiek wilde zien. Bezoekers hadden met name belangstelling voor de technische aspecten van software en stelden veelal database-gerelateerde vragen aan de sprekers.

De wensen van het publiek betroffen onder andere het overgaan naar de cloud en de mogelijkheden om data realtime weer te geven. Op deze manier zouden de congresbezoekers, veelal vertegenwoordigers van middelgrote Amerikaanse bedrijven, sneller de waarde van hun bedrijfsdata kunnen aantonen.

Vijf pilaren

Het accent van congres lag uiteindelijk dus op tools voor big data analytics. Maar wat kan ik de lezer dan als ‘beste’ oplossing meegeven om de genoemde tegenstelling op te lossen? Vanuit mijn rol als informatieprofessional, en met het idee om los te komen van het softwaregericht denken, sprong er voor mij één presentatie uit. John Hebeler, Chief Data Scientist van Lockheed Martin, schetste vijf pijlers om big data (analytics) succesvol in te zetten. De bijbehorende benadering is in mijn optiek voor iedere organisatie een goede basis omdat elke nieuwe pijler logisch uit de voorgaande voortkomt.

> Het belangrijkste uitgangspunt is de eerste pijler rondom de data zelf. Data moet tegenwoordig centraal staan. ‘Data centraal stellen’ omvat onder andere het onder controle krijgen en beheersen van volume, verschillende formats, karakteristieken (waarheidsgetrouwheid, fouten/defecten/ontbrekende data, tijdigheid), toegang en onderlinge relaties.

> De tweede pijler betreft methodes. De methodes zijn bedoeld om waardes aan de data toe te kennen. Hier vallen bijvoorbeeld Artificial Intelligence (AI) en machine learning onder. Wanneer de data van pijler 1 niet op orde is, hebben de methodes uit de tweede pijler dus geen zin meer. De meeste bedrijven richten zich echter vooral op de methodes. Een ideale (combinatie van) methode(s) en de inzet ervan is er nu gewoonweg nog niet. Wel kon Hebeler bijvoorbeeld al vijftig verschillende methodes voor machine learning opnoemen. Methodes kunnen altijd wel een antwoord of een uitkomst geven. Maar de vraag wat op welk moment gewenst is, ligt nog open.

> De derde pijler omvat technologieën. Deze zijn bedoeld om de methodes te implementeren en omvatten onder andere semantiek, veiligheid en op te stellen ‘libraries’ (om organisatiebrede begrippen en bijbehorende definities inzichtelijk te maken).

> Om technologieën te laten werken, zijn middelen nodig. Dit is pijler vier. Er is bijvoorbeeld computerkracht nodig vanuit een goede infrastructuur (zoals het netwerk en aanwezige platformen).

> Als vijfde en laatste pijler is context belangrijk. Het domein van de betreffende hoeveelheden data moet duidelijk zijn. Dit geldt ook voor wat je wilt bereiken. Wat willen we aantonen of oplossen door middel van de door ons gekozen methodes? Op deze manier zijn de uitkomsten van de big data-analyse goed te controleren.

Het gedachtegoed van Hebeler bevat tot slot nog twee onderdelen die een belangrijke rol spelen bij de vijf genoemde pijlers. Dit zijn architectuur (hoe brengen we de middelen, technologieën en data effectief bij elkaar?) en proces (volgens welke stappen wordt deze architectuur ontworpen?).

Tot slot

De lessons learned van dit congres: probeer als organisatie of informatieprofessional in het big data-landschap vooral eerst jouw eigen data te begrijpen. Alle ontwikkelingen en oplossingen rond nieuwe, interessante methodes volgen hierna pas. Gebruik methodes om waarde aan je data te geven en informatie te creëren. Ga daarbij ook vooral aan de slag in de juiste context. Vanuit information governance denk je immers na waarom je jouw data hebt verzameld of geproduceerd. Een duidelijk(er) zelfbewustzijn helpt in mijn ogen als eerste stap om in het big data-landschap aan de slag te gaan.

Bewust leg ik hier de nadruk op zelfbewustzijn, en daarmee op het persoonlijke aspect. De big data-revolutie waarmee Thornton A. May het congres begon, heeft namelijk ook een menselijke kant. De boodschap van May was dan ook om goed naar jezelf te kijken. We zitten midden in een enorme revolutie – en die willen we samen met elkaar ontdekken en begrijpen. Dat kan alleen door elkaar ook te helpen. En steeds gezamenlijk nieuwe dingen te leren.

* Business Intelligence And Big Data. Q4 2012. Base: 634 business intelligence users and planners.

Justin van der Vlies is Informatie Analist bij Waternet.


Datastroomkaart   

Op het KNVI Jaarcongres 2016 presenteerde Justin van der Vlies tijdens de Young Talent-track zijn afstudeerproject. Voor de opleiding Informatiedienstverlening en -management aan de Haagse Hogeschool ontwikkelde hij een Datastroomkaart. Van der Vlies werkt bij Waternet in Amsterdam, waar hij ook zijn afstudeeropdracht heeft uitgevoerd. Na zijn afstuderen ging hij aan de slag met de ontwikkeling van een Objecttypenbibliotheek voor Waternet.

Voor zijn afstudeerproject heeft Van der Vlies een begin gemaakt met het in kaart brengen van alle databronnen binnen Waternet. Daartoe bracht hij alle datastromen van één proces in kaart. Vervolgens heeft hij dit voorbeeld doorontwikkeld tot een generieke aanpak. Op deze manier wil hij duidelijkheid scheppen rond alle mogelijke databronnen binnen een proces.

Een datastroom geeft aan waar eventuele knelpunten liggen en waar dus ook mogelijke winst te behalen is om het proces te optimaliseren. Want gebruiken medewerkers binnen een bepaald proces wel allemaal dezelfde informatie? En is dit de gewenste informatie? Deze vragen wilde Van der Vlies per voorbeeldproces beantwoorden door te kijken naar het verloop van de onderliggende data. Dit is immers de basis waaruit informatie ontstaat.


Deze bijdrage komt uit IP nr. 6 / 2017. Het gehele nummer kun je hier lezen.