Social media helpen big data vooruit

Social media helpen big data vooruit
Big data is ongetwijfeld een van de meest spannende groeimarkten binnen de informatietechnologie. Onderzoeksbureaus hebben voor deze sector groeiprognoses in petto die onwaarschijnlijk lijken. Als ze bewaarheid worden, dreigt een enorm tekort aan skills voor bedrijven die de massale hoeveelheid gegevens willen ontginnen waarover ze beschikken. Samenwerken zal bijzonder belangrijk worden, en zeker ook de manier waarop wordt samengewerkt. Dit is bij uitstek een domein waar social media voor doorbraken kunnen zorgen.
 
Dat big data de hype van 2012 wordt, staat nu al vast. Iedere technologieleverancier heeft zichzelf een cloudjasje aangetrokken en profileert zich als specialist in big data. IDC (2011) berekende dat de markt voor big data de komende jaren met 39 procent per jaar zal groeien. Een groei die zeven keer groter is dan de gemiddelde groei van de informatietechnologie, van een luttele 3,2 miljard dollar in 2010 tot liefst 16,9 miljard dollar in 2015. Daarbij gaat het om uitgaven aan zowel diensten als technologie – lees: hardware en software. En dan neemt IDC nog niet eens een ruime definitie van big data. Volgens de Amerikaanse analisten is er pas sprake van een big-dataproject als er minstens twee datatypen bij betrokken zijn, er op meer dan 100 terabytes aan data gewerkt wordt en er data in reële tijd en op hoge snelheid geanalyseerd worden.
Tekort aan data scientists
De toepassingen van big data zijn onbegrensd, al was het maar omdat de mensheid tegenwoordig zettabytes aan data produceert. Dankzij de komst van krachtige MPP (massively parallel processing)-databases, nieuwe analysetools en steeds krachtiger, goedkope standaardhardware kunnen veel meer gegevens worden verwerkt. Goed voor zowel het voorspellen van wat consumenten gaan kopen, hoeveel schade aardbevingen gaan aanrichten, hoe we medicijnen het beste naar een specifieke plaats in het lichaam kunnen sturen, hoe epidemieën zich gaan verspreiden enzovoort.
Nu de techniek zoveel analyses mogelijk maakt, zitten zowel technologieleveranciers als afnemers van big-datatechnologie met de handen in het haar. In een paar jaar tijd moeten ze specialisten werven die een discipline beheersen die nergens onderwezen wordt en waar nauwelijks een curriculum voor bestaat. Diverse technologieleveranciers zijn daarom zelf maar begonnen met het opstellen van lespakketten om mensen bij te scholen.
Witte raven en rocksterren
Het lastige bij het vinden van deze dataspecialisten is dat het in feite witte raven zijn. Een data scientist , zoals deze nieuwe specialisten doorgaans
genoemd worden, is de combinatie van vele specialismen. Om goed te weten hoe relevant welke data zijn voor een bedrijf of een overheidsorganisatie, moet deze specialist de zakelijke problematiek door en door kennen. Wie op basis van grote hoeveelheden gegevens een medische doorbraak wil forceren, moet zelf heel goed inzicht hebben in de chemische werking van het lichaam en medicijnen. Maar tegelijk moet deze persoon ook een technologische pet op hebben: hij moet weten hoe je de relevante data kunt extraheren, bewerken en verwerken. Voor dit stuk van de job lijken ze een beetje op de business-intelligencespecialist. Diverse onderzoeken (bijvoorbeeld van EMC, 2011) hebben echter al aangetoond dat een BI-specialist niet per se een goede data scientist is. BI-specialisten hechten een groot belang aan de kwaliteit van data: pas als de data helemaal opgeschoond zijn, gaan ze ermee aan de slag. Big-data-analisten hebben dat geduld niet: zij werken met data in reële tijd en pakken zowel gestructureerde als niet-gestructureerde data aan, iets waar een BI-expert van gruwelt. Maar bovenal moet de data scientist ook een beetje een artiest zijn, die creatief verbanden zoekt en bij voorkeur expertise uit verschillende domeinen kan combineren.
Zo veel talenten zijn niet gemakkelijk te combineren. De data scientist wordt daarom niet ten onrechte ‘de nieuwe rockster’ genoemd. De data scientist beschikt over diverse personae.
Open innovatie
Open innovatie kan een oplossing zijn om al deze talenten samen te brengen: misschien hoeft een data scientist niet één persoon te zijn, maar kunnen de talenten van een aantal verschillende specialisten worden samengesmeed tot één virtuele data scientist. Het model van open innovatie is uiteraard niet nieuw, maar begint recent sterk aan belang te winnen. Open innovatie werd tien jaar geleden gepionierd door Procter & Gamble. Dat bedrijf besefte dat het niet langer in een hoekje nieuwigheden kon ontwikkelen en zette zijn R&D-deuren open voor externe specialisten. Zo breidde het zijn R&D-afdeling uit van 7500 eigen ontwikkelaars tot een virtueel team met meer dan een miljoen uitvinders. Maar hoe kun je al die mensen laten samenwerken zonder tijd te verliezen met het eindeloos synchroniseren van alle bevindingen? Dit is waar social media een rol kunnen spelen.
Door social media in te zetten kunnen wetenschappers veel sneller gegevens met elkaar delen en voorlopige conclusies toetsen aan de mening van anderen. Dit is een iteratief proces, waardoor de cycli binnen de analyse van data een stuk sneller kunnen verlopen. Een dergelijk proces is te vergelijken met agile in de wereld van het ontwikkelen van toepassingen. Ook daar werken ontwikkelaars iteratief en collaboratief.
Social platform
Hoe moet een dergelijk sociaal platform voor data scientists er dan uitzien? Het allerbeste is een dergelijk platform te integreren met de ontwikkelomgeving waar de onderzoekers gebruik van maken. Zo benadert het platform zo dicht mogelijk de manier waarop ze ontwikkelen. Meestal gebeurt dat in vier stappen ( figuur 1 ) :
1. Exploratie van de data: waar zitten de data, hoe kunnen we die gebruiken, hoe worden de metadata, commentaren en SQL geïndexeerd? Wanneer de projectomgeving opgezet is (volgende stap), worden de data onder de voorwaarden van deze exploratiefase geïmporteerd in het platform.
2. Opzetten van de projectomgeving: meestal is dit een sandbox die snel kan worden opgezet en waar analisten de data kunnen analyseren. Data scientists kunnen een dergelijke sandbox met slechts een paar muisklikken activeren en naar hun eigen werkwijze inrichten. Selfservice provisioning zorgt ervoor dat de data scientist niet eerst langs de IT-afdeling moet om een dergelijke sandbox te creëren.
3. De eigenlijke data-analyse: de gebruiker kan de data op een eenvoudige manier visualiseren en delen met andere onderzoekers.
4. De snelle publicatie van onderzoeksresultaten. Andere onderzoekers bekijken deze data en geven feedback. Op het social-mediaplatform brainstormen ze over mogelijkheden die over het hoofd gezien worden. Dat leidt tot nieuwe inzichten in de resultaten die de onderzoeker presenteert aan zijn collega’s, maar tegelijk helpen deze brainstormsessies ook de collega’s vooruit. Op basis van die feedback wordt er verder onderzocht.
 
Figuur 1. De vier fasen van het sociale platform
 
Deze cyclus herhaalt zich telkens opnieuw, tot er nieuwe inzichten tevoorschijn komen en de onderzoeker een algoritme vindt waarmee hij nieuwe data telkens op dezelfde manier kan analyseren. Dit platform staat uiteraard niet open voor alles en iedereen, onderzoek uitgevoerd op big data van een onderneming is immers een van de competitieve wapens die een bedrijf heeft. Daarom is een sterke beveiliging noodzaak, bijvoorbeeld door integratie met LDAP of Microsoft Active Directory voor het beheer van gebruikerswachtwoorden. De beveiliging moet ook de toegang tot de databronnen regelen: gebruikers krijgen alleen die data te zien waar ze toegangsrechten op hebben en mogen met de data alleen die manipulaties uitvoeren waar de administrator hen rechten voor geeft. Het platform dient meteen ook als een repository van inzichten die via het onderzoek bereikt zijn. Ook dat bevordert het onderzoek, want wie gebruik wil maken van eerdere resultaten, hoeft die niet op verspreide locaties (mail, servers, intranet) te zoeken. Een dergelijke aanpak verhoogt de efficiëntie van een organisatie. Zonder een dergelijk collaboratief platform zouden heel veel onderzoeksresultaten simpelweg verloren gaan.
Geen silo's meer
Een dergelijk social-mediaplatform lost meteen ook nog een aantal andere problemen op. Data zijn bij organisaties vaak verspreid. En ook daar is big data anders dan business intelligence. Business intelligence en data warehousing streven er al decennialang naar om een groot enterprise data warehouse te bouwen als veilige haven voor alle bedrijfsdata. Rond dit data warehouse is een heel netwerk van processen en voorwaarden opgetrokken, waardoor een data warehouse in grote mate een statisch geheel is. Om een voorbeeld te geven: als iemand van marketing een model bouwde om voorspellingen te doen rond het aanbevelen van producten, wordt dit model niet door de hele organisatie verspreid, maar strikt afgeschermd op de marketingafdeling. Een data scientist heeft hier niets aan. Voor een data scientist mogen data echt wel over het hele bedrijf verspreid zitten. Sterker zelfs: heel veel van de input van zijn analyse komt als een gestage stroom aan gestructureerde en ongestructureerde data van buiten zijn bedrijf binnen. Sentimentanalyse van zaken die op platformen als Twitter en Facebook geschreven worden, geolocatiedata van mobiele telefoonabonnees, het is de nachtmerrie voor een enterprise data warehouse, maar tegelijk de droom van de data scientist. Door op een open platform als sociaal medium te gaan samenwerken kunnen data scientists van alle kanten data gaan binnentrekken en met elkaar verder werken.
Competitie
Een geheel andere manier om social media in te zetten om samen te werken is de manier waarop Kaggle te werk gaat. Naar eigen zeggen maakt Kaggle van data science een sport: het bedrijf organiseert competities waarbij dataspecialisten uit diverse domeinen zich over eenzelfde probleem buigen en naar oplossingen zoeken in de hoop daarmee een prijs te winnen. Nu al telt Kaggle meer dan 30.000 deelnemers, die op een of andere manier aan een wedstrijd deelnamen. De competities worden door Kaggle online gelanceerd. Zowel bedrijven als onderzoeksinstellingen of overheden kunnen datasets ter beschikking stellen en onderzoeksteams in competitie tegenover elkaar zetten. Een blik op de voorbije wedstrijden leert dat het niet om de eerste de beste problematiek gaat: het analyseren van telescoopbeelden van de NASA, het voorspellen van de verspreiding van hiv, vastleggen hoe oogbewegingen van mensen kunnen worden gebruikt als identificatiemiddel – je kunt het zo gek niet bedenken of er wordt wel een prijs voor uitgeloofd. Het prijzengeld varieert per opdracht en kan variëren van een paar honderd dollar tot enkele miljoenen. Een van de lucratieve onderzoeken die momenteel loopt, betreft het voorspellen welke mensen binnen het jaar in een ziekenhuis terecht zullen komen. Het doel is onnodige ziekenhuisopnames te voorkomen en de zorgverzekeringen een mooie besparing op te leveren. Wie dit wil onderzoeken, krijgt een berg historische data van een verzekeringsmaatschappij ter beschikking. Wie het winnende algoritme ontwikkelt, krijgt 3 miljoen dollar. Voelt u het al kriebelen? Dan hebt u nog bijna een jaar om het algoritme te berekenen. Maar weet wel dat ongeveer 2000 mensen daar al mee bezig zijn.
Snelle resultaten
In dit geval werken wetenschappers niet echt met elkaar samen en zullen ze elkaar ook niet meteen gegevens gaan doorspelen – daarvoor is de inzet te hoog. Maar door de competitie aan te wakkeren, zegt Kaggle, worden soms in een paar maanden tijd resultaten bereikt waar anders een paar jaar voor nodig geweest was. En ‘time is money’, natuurlijk. Bovendien zoeken andere onderzoekers vaak verder op dezelfde problematiek. De beloning is voor een ander, maar op basis van deze resultaten kan weer verder gewerkt worden.
Data scientists die gegevens uit het hele bedrijf willen analyseren, hebben nu vaak moeite om alle data van het bedrijf te vatten. Ze beschikken vaak niet over de hulpmiddelen om datasets met collega’s te delen en te vergelijken en kunnen niet in reële tijd reageren op andere onderzoeksresultaten. Een goed social-mediaplatform dat zowel binnen als buiten het bedrijf onderzoekers met elkaar verbindt, kan een groot deel van de frustraties van onderzoekers wegnemen.
Social media zijn de grootste bron van de zondvloed aan data waarin we dreigen te verdrinken. Tegelijk kan een social-mediaplatform ervoor zorgen dat deze data sneller in relevante informatie worden omgezet. Zo zijn social media zowel de aanstoker als de oplossing voor de noodkreet van John Naisbitt: ‘We are drowning in information but starved for knowledge.’
Literatuur
EMC (2011). Data Science Revealed: a data-driven glimpse into the burgeoning new field, www.emc.com/collateral/ about/news/emc-data-science-study-wp.pdf. IDC (2011). Worldwide Big Data Technology Services 2012
2015 Forecast, maart 2011.
Hans Timmerman is CTO van EMC Nederland. E-mail: hans.timmerman@emc.com.
 

Tag

Onderwerp



Niet gevonden? Vraag het de redactie!

Heeft u het antwoord op uw vraag niet gevonden, of bent u op zoek naar specifieke informatie? Laat het ons weten! Dan zorgen we ervoor dat deze content zo snel mogelijk wordt toegevoegd, of persoonlijk aan u wordt geleverd!

Stel uw vraag