Van data naar informatie

 
Van data naar informatie
In het kader van innovatie en nieuwe ontwikkelingen wordt de rol van datascientist veelvuldig en in vele variaties genoemd als meest sexy onderwerp binnen de ICT. Maar wat kan die datascientist nu precies?
Data zijn de ruwe gegevens, de harde feiten die verzameld en opgeslagen kunnen worden. Worden deze door middel van computers ontsloten en gecommuniceerd, wordt hieraan enige context of betekenis toegevoegd, dan ontstaat informatie. Hieruit kan nieuwe kennis totstandkomen en worden gedeeld, vooral door het menselijk denken waaruit door combinatie en systemisch denken weer (collectieve) intelligentie ontstaat. In figuur 1 wordt dit schematisch weergegeven, met een toepassing van de verschillende niveaus op de businesspraktijk.
Figuur 1. Het traject van ruwe data naar de businessimpact van een betekenisvolle interpretatie

Een datascientist is dus een discipline binnen het dataveld, die zich bezighoudt met de onderbouwing van besluitvorming in een organisatie en de opbouw van collectieve intelligentie. Door data met behulp van wiskundige en algoritmische technieken te onderzoeken op een ‘evidence based’ analytische manier, zijn zij in staat om een groot aantal complexe zakelijke inzichten te krijgen, problemen op te lossen en innovatie te initiëren. Het stelt de organisatie in staat om meer intelligent strategisch te werken, en door lering te kunnen trekken uit gegevens wordt ondernemingswaarde toegevoegd.
De datascientist kan – op conceptueel niveau, minimaal – het gehele traject overzien van ruwe gegevens vanuit de oorspronkelijke bron tot de businessimpact van de eindresultaten (zie ook figuur 1). Omdat het niet mogelijk is alle aspecten van dit traject tot op detailniveau te beheersen, heeft de datascientist een diepere expertise op een of meerdere onderdelen ervan.
Opslag en verwerking
Bij de transitie van data naar informatie denken we hier aan het inmiddels klassieke business intelligence-veld: gegevensopslag en verwerking, waarbij de data een transitie ondergaat van ruwe brondata tot een vorm en structuur die inzichtelijk is voor de businessgebruiker, met een voor de gebruiker wenselijke indeling en inhoud, op een voor de gebruiker toegankelijke locatie.
• Inrichting van, ondersteuning op, en beheer van BI-/datawarehousing-platform en tooling
• ‘Extract, transform, load’-processen (ETL) voor het transformeren van de data; dit kan periodiek plaatsvinden in de vorm van bijvoorbeeld het dagelijks bijladen van bepaalde tabellen, of continu in de vorm van bijvoorbeeld het toevoegen van gegevens in een bestaande tabel naar aanleiding van een bepaalde brongestuurde trigger
• Interpretatie, communicatie en visualisatie van de gegevens(structuur)
Analyse
De transitie van informatie naar kennis (figuur 2) is een analytische exercitie, en tot voor kort was dit het min of meer exclusieve domein van de business-analist. In dit domein wordt ervan uitgegaan dat de gegevens in goed interpreteerbare, gestructureerde vorm aanwezig zijn (hoewel dit in de praktijk niet altijd het geval is), en is de belangrijkste vraag hoe we van deze informatie kunnen komen tot bruikbare businessconclusies, visualisaties en kennis. Met kennis bedoelen we dan op de data gebaseerde conclusies of bevindingen waarop vanuit de business actie kan worden ondernomen, die op wat voor manier dan ook inzicht brengen aan de business.
• Statistische analyse: wordt gezocht naar een vast patroon in de verhoudingen tussen de verschillende variabelen
• Machine learning-technieken zoals ‘K-means clustering’, neurale netwerken en ‘decision trees’: een model wordt gecreëerd vanuit bepaalde algoritmes die bij toepassing op een nieuwe dataset een bepaalde voorspelling genereren. Hierbij is het verband tussen de variabelen minder inzichtelijk, maar dit biedt ook ruimte voor meer grillige verbanden en patronen.
• Descriptive analytics gaat over het verleden: wat er is gebeurd en eventueel ook waarom dat is gebeurd. We denken dan aan het vaststellen van een bedrijfsresultaat en een analyse over welke factoren hebben geleid tot dat resultaat. Bijvoorbeeld, een retailer die het resultaat analyseert van een recente kortingsactie – wat is het toegevoeg-de resultaat, gekwantificeerd per (bijvoorbeeld) klantgroep, verkooppunt of regio.
• Met het waarom kunnen we misschien ook al iets zeggen over de toekomst. We praten dan over predictive analytics : wat zou er gebeuren als we de kortingsactie nogmaals inzetten, misschien in een andere regio of voor een ander klantsegment?
• Prescriptive analytics gaat nog net een stapje verder, en geeft antwoord op de vraag: wat moeten we doen om in de toekomst een optimaal resultaat te behalen? Hoeveel korting geven we aan welke klanten? En welk resultaat verwachten we dan?
 
Figuur 2. Business intelligence op technisch, zakelijk en wetenschappelijk vlak
 
In figuur 3 visualiseren we dit domein op eenzelfde manier als dat van de business intelligence in figuur 2. We zien dat hier juist de ‘data-kant’ van de datascience niet tot nauwelijks aanwezig is – de nadruk ligt op een wetenschappelijke invulling van zakelijke vraagstukken, niet op de technische invulling van het verwerken van de ruwe data.
Figuur 3. Data-analyse op technisch, zakelijk en wetenschappelijk vlak
 
Meer, groter, sneller
Een aantal recente ontwikkelingen en trends creëert een behoefte aan het datascience-domein dat deze twee – BI en business analytics - verenigt en overstijgt.
Power
De meest zichtbare ontwikkeling is technologische groei van ‘processing power’ en opslagruimte. Dit maakt het ten eerste niet alleen wenselijk maar ook mogelijk om als individu een klein datascience-project geheel zelfstandig tot een goed einde te brengen. Eerder was het simpelweg niet mogelijk om grote datasets als individu te beheersen en bewerken van bron tot presentatie, maar tegenwoordig is het niet in het minst vergezocht dat een goede datascientist met toegang tot de brondata van de business – of zelfs alleen online (social media) datasets – eigenhandig bruikbare conclusies produceert. Dit betekent ook dat de datascientist een flexibele rol kan zijn die op consultancy-basis kan worden uitgevoerd.
Big data
De big data-trend speelt hier natuurlijk ook een rol. Big data is een lastig te vangen term, omdat het eigenlijk alleen ‘grote hoeveelheden data’ betekent, maar wat is dan de hype? Eigenlijk gaat de hype vooral over de wens om grote hoeveelheden ongestructureerde data uit nieuw aangeboorde bronnen effectief te analyseren, waarbij het structureren en opschonen van de data tot een minimum wordt beperkt en waar mogelijk direct wordt geanalyseerd op de bron – dan kan er namelijk meer data geanalyseerd worden in minder tijd en voor minder geld; goedkoper én sneller beschikbaar resultaat dus. Om aan deze wens tegemoet te komen zijn specifieke gege vensopslag en -extractietechnieken ontworpen. Hadoop is hiervan het bekendste voorbeeld.
Deze wens creëert een vraag naar professionals die zowel grip hebben op de databronnen als op analysetechnieken en de relevantie daarvan in de business. Hoewel de bronnen zodanig groot zijn dat het niet mogelijk is dit op individuele basis te beheersen, moet er wel iemand zijn die genoeg begrip heeft van het gehele proces om tot een zinnige interpretatie van de uitkomsten te komen. In het overslaan van de ‘middle man’ – het opslaan van de bewerkte, gestructureerde ‘informatie’ (figuur 1) – schuilt het gevaar dat ook een stap in de definiëring van, en betekenisgeving aan de data wordt overgeslagen. Het traditionele datawarehouse zorgt niet alleen voor opslag maar ook voor overdracht, omdat het afdwingt dat een bepaalde logische structuur wordt gezocht in ongestructureerde gegevens, omdat de informatie wordt gefilterd uit de data (figuur 1).
Data mining
Data mining is net als big data een moeilijk concreet te definiëren term waar een soort ide aalplaatje achter ligt: dat je uit een (verzameling van) dataset(s) informatie en zelfs kennis kunt extraheren zonder dat daar een concrete onderzoeksvraag of -richting voor is vastgesteld; iets vinden zonder dat je weet wat je zoekt door middel van het herkennen van onverwachte patronen. In sommige gevallen zijn met deze methode ongetwijfeld goede resultaten te behalen, maar het is een sprookje dat uit iedere dataset juweeltjes van conclusies te trekken zijn die je niet verwacht, als de dataset maar groot genoeg is en je maar diep genoeg graaft. Het is één techniek uit velen, en over het algemeen heeft het toch zijn voordelen als je weet waar je naar zoekt.
Nieuwe bronnen
Een andere ontwikkeling die maakt dat er naast de BI- en analytics-velden ruimte is voor een datascience-vakgebied is dat er nieuwe databronnen beschikbaar komen en waarvan de ontsluiting specifieke kennis en vaardigheden vereist die niet passen in de traditionele BI/analytics. Je denkt nu natuurlijk aan het Internet of Things en gegevens vanuit sociale media, maar er zijn nog een aantal minder gehypete, maar minstens zo belangrijke ontwikkelingen op datagebied gaande, zoals ‘web scraping’, ‘text mining’ en ‘linked open data’.
Internet of Things
Het Internet of Things refereert aan online beschikbare gegevens vanuit ‘dingen’, zoals daar zijn allerhande sensoren, machines, vervoersmiddelen en niet te vergeten mobiele telefoons die tegenwoordig vaak chips bevatten die gegevens opslaan en/of communiceren over locatie, omgeving of staat van het ‘ding’ – of over de persoon die met het ding verbonden is. Zo kunnen er bijvoorbeeld bij een autoverhuurbedrijf gegevens worden verzameld over hoeveel afstand de gehuurde auto aflegt, waar hij rijdt, of de bestuur der snelheidsovertredingen begaat, enzovoort, en direct worden ingezet om de bestuurder van feedback te voorzien, een bepaalde service of korting aan te bieden op basis van een profilering van de bestuurder óf deze juist toegang tot de service te ontzeggen als hij zich niet aan de regels houdt. Een ander voorbeeld is het verwerken van gegevens vanuit sensoren van industriële machines om bijvoorbeeld mankementen door slijtage te voorspellen of minimaliseren.
Social media
Sociale media zijn natuurlijk debet aan een nieuwe, vrij toegankelijke, permanente, enorme stroom aan beschikbare gegevens – Twitter heeft bijvoorbeeld API’s waarmee deze stroom ook gestructureerd kan worden afgetapt.
Web scraping
Web scraping is het crawlen van websites en analyseren van de inhoud. Met bepaalde keywords zou bijvoorbeeld een grove analyse gemaakt kunnen worden van de verspreiding van kledingwinkels over ons land, aangenomen dat de meeste kledingwinkels een website hebben met hun adres daarop. Daar komt dan nog wel wat text mining bij kijken.
Text mining
Text mining refereert aan de geautomatiseerde, inhoudelijke analyse van platte stukken tekst of een verzameling tekstdocumenten. Dit gebeurt op basis van keywords of zogenaamde ‘sentiment analysis’, waarbij specifiek gezocht wordt naar de aanwezigheid van positieve of negatieve conno-taties. Ook kan worden gezocht naar betekenis in de structuur van de tekst; een adres heeft bijvoorbeeld vrijwel altijd dezelfde structuur.
Linked open data
Tot slot biedt linked open data ook een onontgonnen databron. Deze term refereert aan openbare bronnen van zogenaamde linked data, gegevens die zijn gestructureerd in netwerkvorm. Voor het opslaan, aanbieden, verwerken en analyseren van linked data gebruikt men specifieke talen en tools zoals RDF (opslag) en SPARQL (querying).
Deze nieuwe databronnen hebben een aantal eigenschappen gemeen die er aanleiding toe geven ze op te nemen in de datascience als onderscheidend specialisme. Ten eerste zijn ze niet te plaatsen in de traditionele BI/analytics-verdeling. Text mining heeft bijvoorbeeld een sterke analytische component en vereist tegelijk bewerkingen op extreem ongestructureerde brondata. Structurering en analyse gebeuren binnen hetzelfde proces, en de uitvoerder heeft kennis nodig van beide aspecten. In figuur 4 zien we ook dat nieuwe bronnen en methoden zich op de grensvlakken van de techniek bevinden, deze vereisen dus behalve technische knowhow ook wetenschappelijke en/of zakelijke expertise.
Figuur 4. Nieuwe methoden en technieken in het datascience-veld
 
Ten tweede zijn de gegevens zelf moeilijk te vatten in de relationele tabellen die de basis vormen voor een traditionele BI-structuur. De structuur van bijvoorbeeld sociale netwerkgegevens is fundamenteel anders. Bovendien bevinden deze gegevens zich vaak al in de cloud, online of in anderszins eigen structuren van waaruit de analyse plaats kan vinden en is er dus minder behoefte om in de gegevensopslag te voorzien.
Het feit dat deze bronnen veelal extern van de business of zelfs algemeen toegankelijk zijn, brengt nog een nieuwe dimensie: de concurrentie kan, mits ze dezelfde analyse toepassen, over dezelfde informatie beschikken als wij. Dit betekent dat er meer nadruk komt te liggen op snelheid van de analyse, en ook op de kwaliteiten van de datascientist. Het zijn immers niet de gegevens zelf die een concurrentievoordeel kunnen opleveren, maar als we betere, meer betrouwbare conclusies kunnen trekken uit dezelfde gegevens of dezelfde conclusies eerder trekken, hebben we dat voordeel wel.
Conclusie
Binnen dit vak zijn er verschillende subgebieden en specialismen, waarvan een professionele invulling een specifieke set aan competenties vereist. Op deze verschillende soorten datascien tists en hun competenties gaan we in een volgend artikel verder in. Samenvattend voor nu kunnen we concluderen dat de datascientist zowel diepe als brede kennis en capaciteiten heeft. Dit is dus eigenlijk een allround specialist, die op de hoogte is van de laatste ontwikkelingen in een snel groeiende technologische context.
 
KADER: Prescriptive analytics
Prescriptive analytics geeft antwoord op de vraag: Wat moeten we doen om in de toekomst een optimaal resultaat te behalen? Hoeveel korting geven we aan welke klanten? En welk resultaat verwachten we dan? Predictive analytics kan ook wel iets zeggen over optimalisatie van toekomstige acties; een voorspelling van een resultaat van de actie op klanten die nog niet zijn benaderd, kan bijvoorbeeld een goede indicatie geven van de optimale actie. Waar prescriptive analytics verdergaat, is dat deze optimalisatie ook expliciet wordt uitgewerkt, en dat de te verwachten gevolgen van de verschillende opties en combinaties daarvan in detail worden uitgewerkt. In het voorbeeld van de marketingactie kan op basis van predictive analytics gekozen worden om op basis van een voorspelling van het resultaat per klant die klanten te benaderen waarvan het voorspelde resultaat boven een bepaald bedrag ligt. In een prescriptive benadering zouden implicaties van het variëren van verschillende variabelen (de hoeveelheid korting, het aantal benaderde klanten, eigenschappen van die klanten) worden meegenomen, met als resultaat een advies over de optimale inrichting van deze variabelen en de verwachte gevolgen daarvan, mogelijk met een aantal alternatieven. Dit is dus eigenlijk het verbreden en combineren van verschillende voorspellingen, en deze terugbrengen naar de business met een concrete suggestie voor te nemen beslissingen. Prescriptive analytics brengt twee grote uitdagingen met zich mee. De eerste is dat de uitkomsten van de analyse begrijpelijk moeten zijn voor de business. Geen manager zal beslissingen nemen puur ‘omdat mijn datascientist het zegt’; het overbrengen van de redenering die aan de uitkomsten ten grondslag ligt is minstens zo belangrijk als het overbrengen van de uitkomst zelf. De tweede uitdaging is het vaststellen van de betrouwbaarheid van de voorspelling, en hoe daarmee om te gaan richting de business. Welke afwijking van de voorspelde resultaten kunnen we verwachten als de voorgestelde oplossing daadwerkelijk geïmplementeerd zou worden? Hoe zeker weten we dat dit het beste is om te doen? En waar ligt de verantwoordelijkheid als resultaten afwijken van de verwachting?
 
 
Marleen Olde Hartmann (marleenoldehartmann@ gmail.com) is eigenaar van ABIO BV.
Nienke Korsten (nienkek@gmail.com) is datascientist bij EOM Data Solutions.
 

Tag

Onderwerp



Niet gevonden? Vraag het de redactie!

Heeft u het antwoord op uw vraag niet gevonden, of bent u op zoek naar specifieke informatie? Laat het ons weten! Dan zorgen we ervoor dat deze content zo snel mogelijk wordt toegevoegd, of persoonlijk aan u wordt geleverd!

Stel uw vraag