Een MOOC op het gebied van datascience

 
Een MOOC op het gebied van datascience
Sinds drie jaar volg en deel ik op social media vrijwel dagelijks Sinformatie over innovatie. Ik ben daarbij vooral op zoek naar nieuwe ideeën die zonder grote investeringen toe te passen zijn in mijn werk en persoonlijk leven. Ik ben niet de enige die behoefte heeft om actief bij te houden wat er op dat gebied gebeurt. Het aantal bezoekers op mijn website www.fluxorcadia.com en het aantal volgelingen op Pinterest, LinkedIn en Twitter groeit dan ook gestaag. Afgelopen zomer was het tijd om de daad bij het woord te voegen en één van die innovaties concreet toe te passen. Ik zette dus voor het eerst in mijn leven de stap om me in te schrijven voor een MOOC (Massive Open Source Online Course) via Coursera.
Mijn motivatie? We leven in een tijd waarin veel professionals geconfronteerd worden met innovaties die zich in hoog temp aandienen. Onze persoonlijke vaardigheden moeten met die innovaties meebewegen. Soms moeten we onszelf ook helemaal opnieuw uitvinden! Onze banen houden op te bestaan door de digitale transformatie van de bedrijfstak waar we werken, of door andere veranderingen in de wereld.
Dit geldt net zo goed voor directeuren. Er is genoeg bewijs dat de grote meerderheid van hen – bijna altijd mannen van boven de vijftig jaar – de IT-ontwikkelingen in hun bedrijfstak niet volgen en innovatietrends missen die op punt staan hun markt vergaand te veranderen. Bij Ngi-NGN noemen we dat digitale transformatie. Ook voor mij als verandermanager en interim-CFO is het werk de afgelopen tien jaar steeds meer IT-gerelateerd geworden. Nadat ik met veel plezier een aantal business intelligence- en business analytics-projecten had gedaan, vond ik dan ook dat het hoog tijd was om een vervolgstap te doen. Ik wilde zelf weten wat er onder de motorkap van de datascience gaande was.
Ik begon met allerlei mensen gesprekjes te voeren over big data en kwam er achter dat voor de meesten in mijn netwerk het onderwerp nog een sprookjeskarakter had: leuk, maar nogal onrealistisch. Ik kon ook geen goede praktijkvoorbeelden vinden om zelf te onderzoeken en beschrijven op mijn innovatiewebsite. Een paar bedrijven in Nederland die actief waren op het gebied van big data hulden zich in een wolk van geheimzinnigheid en informatiebescherming. Ze waren duidelijk bang dat ik er met hun business-idee vandoor zou gaan.
Dus ik besloot om mijn ideeën over loopbanen in de 21e eeuw zelf in de praktijk te brengen. Ik zou een gratis college aan de universiteit gaan volgen over het onderwerp. Het gaf me meteen de kans om te ervaren hoe het is om me online bij te scholen. Ik ging dus online en googlede ‘data science MOOC’ en kwam meteen op de website van Coursera terecht die een introductiecollege aanbood, van Washington University, Seattle. Het zag er degelijk uit en het begon diezelfde dag, dus ik schreef me meteen in. Op de website ontdekte ik dat deze cursus in het eerste jaar dat hij werd gegeven, in 2013, al meteen zestigduizend deelnemers over de hele wereld had getrokken. Ook nu deden er weer heel veel cursisten mee, in meerderheid uit Aziatische landen (India en China) en bijna niemand uit Nederland. Het college voorzag in werkgroepjes die elkaar konden ontmoeten om samen aan opdrachten te werken in de grote wereldsteden. Helaas was ik de enige deelnemer in Nederland, op enkele expats na in Amsterdam en Eindhoven. Ik moest het dus zonder werkgroepje stellen.
Negen weken lang werden er wekelijks videolessen op internet beschikbaar gesteld, die werden onderbroken door korte multiple-choicetestjes waardoor deelnemers konden zien of ze de uitgelegde stof hadden begrepen. Online was er een uitgebreide syllabus beschikbaar met gratis wetenschappelijke artikelen. Ook was het mogelijk om gratis het nieuwe standaardwerk voor professionals op het gebied van big data te downloaden: Mining Huge Datasets.
Er werd elke week een praktijkopdracht op de website geplaatst die bedoeld was om de inhoud van het college toe te passen op een praktijksituatie. Deelnemers kregen de gelegenheid om hun eigen casuïstiek ook online te delen met deelnemers, en hulp te vragen bij de toepassing van de lesstof op deze casussen. Het wekelijks inleveren van de praktijkopdracht was de randvoorwaarde voor het verkrijgen van een deelnamecertificaat. Via een discussieforum was het mogelijk om zaken te bespreken met andere deelnemers en ook met de wetenschappelijk staf, zoals vragen over de lesstof, over aanvullend studiemateriaal, of over technische problemen bij het uitvoeren van de praktijkopdrachten.
De voorkennis die werd gevraagd voor het college was “enige kennis en ervaring op het gebied van programmeren”.
Hoe is het mij vergaan bij het volgen van dit college? Om te begin was de inhoud van de stof uitstekend: actueel, van een goed academisch niveau en goed gepresenteerd. Professor Bill Howe heeft de keuze gemaakt om de inhoud van het college vooral te richten op databases, hun schaalbaarheid en de wijze waarop het omgaan met databases zich heeft ontwikkeld sinds in de jaren negentig de relationele databases de norm werden. Hij legt verder heel duidelijk uit hoe big data praktisch moet worden aangevlogen en presenteert deze lesstof op een introductie-niveau. Zo behandelt hij thema’s als Hadoop, MapReduce, NoSQL-databases, machine learning en visualisatie. Wie verder wil als big data-specialist zou op elk van die onderwerp een apart college moeten volgen om het onderwerp echt te gaan beheersen. Mijn eigen ervaring leert echter dat datascience, meer dan in dit college naar voren komt, een multidisciplinair onderwerp is. Eén van de redenen waarschijnlijk, waarom velen het las
tig vinden om eraan te beginnen, omdat ze per definitie op een meerderheid van deze terreinen niet voldoende onderlegd zijn. Het gaat dan om een hele serie onderwerpen tegelijkertijd: besluitvormingsprocessen aan de directietafel; performance-management en KPI; statistiek en econometrie; visualisatie en communicatietechnieken; databases; kennis van programmeertalen.
Dit college ging niet over de eerste twee vakgebieden, en de onderwerpen statistiek en visualisatie werden slechts kort behandeld. Ik kwam daarom tot de conclusie dat de grootste groep deelnemers aan deze cursus waarschijnlijk heeft bestaan uit IT’ers die al de nodige werkervaring hadden op het gebied van databases en data-analytics. Ook leken er veel studenten informatica aan het college deel te nemen.
Voor de praktijkopdrachten was niet alleen kennis van programmeren, maar ook de nodige ervaring en routine in programmeren noodzakelijk. Voor datascience gaat het dan in de praktijk over talen als R, Python en SQL. Ik wist meteen dat de gevraagde voorkennis op dit gebied me in de problemen zou brengen. Het was namelijk 24 jaar geleden dat ik mijn eigen statistische testen en econometrische modellen had geprogrammeerd in FORTRAN IV als economisch onderzoeker! Maar ik begon moedig aan de eerste studieweek met een zelfstudiecursus Python op mijn laptop en het maken van kleine programmaatjes. Dat was heel leuk om dit weer eens te doen maar kostte me twintig uur om me Python op een acceptabel niveau eigen te maken.
Omdat ik het college volgde naast mijn werk en de colleges en lesstof ook ongeveer vijftien uur in de week in beslag namen, kon het niet anders of ik moest de praktijkopdrachten laten schieten. De Python-cursus hielp me wel enorm om mijn kennis over programmeren op te frissen en dat bleek tijdens de rest van de negen weken zeer nuttig. Ik verwacht dat ervaren programmeurs geen probleem hebben om snel een nieuwe programmeertaal op te pikken, maar mij kostte dat gewoon te veel tijd.
In plaats daarvan besloot ik om voor mijn praktijkopdrachten zelf buiten het college op zoek te gaan naar vraagstukken in mijn eigen werkpraktijk in de maanden die daarop volgden. Om die reden heb ik inmiddels nog een paar praktische trainingen gevolgd in het gebruik van Excel en heb ik een tweedaagse online SQL-training op Stanford gevolgd. Ik denk namelijk dat, zoals bijna alle IT-opleidingen, ook dit college echt praktijkopdrachten nodig heeft om voldoende nuttig te zijn als je ook echt met het onderwerp aan de slag wilt daarna.
Het discussieforum was bijzonder nuttig en goed. Ik stuurde een vraag in over verschillende typen databases en kreeg van de wetenschappelijke staf binnen een kwartier een duidelijk antwoord. Ook bleek dat studenten uit de verschillende groepen op het forum actief met elkaar in discussie waren over de praktijkopdrachten en elkaar ook hielpen daarmee. Hoewel ik geen doorsnee cursusdeelnemer was, had ik dan ook graag meegedaan aan een dergelijk groep in Nederland.
Wie optimaal profijt wil hebben van het volgen van een MOOC, zou met enkele collega’s die aan een soortgelijk project werken, gezamenlijk moeten inschrijven en als groep aan de praktijkopdrachten moeten werken.
Mijn conclusie is dat een MOOC een nuttige route is voor professionals om zichzelf te blijven bijscholen. De werkvorm heeft nadelen, zoals het gebrek aan persoonlijk contact met medestudenten, en niet elk college sluit precies aan op iemands concrete behoefte op een bepaald moment. Maar feit is dat gratis, online, hoog niveau wetenschappelijk onderwijs beschikbaar is voor iedereen. Dat is een fantastische realiteit met hetzelfde kenmerk als het vakgebied datascience: je moet weten wat je wilt bereiken, en bereid zijn tijd te investeren.
Dan is er heel veel mogelijk.”
Diana van der Stelt (dianavdstelt@solcon.nl; @DianavdStelt) is momenteel als interim CFO/CIO verantwoordelijk voor de ontmanteling van het agentschap Dienst Landelijk Gebied in Utrecht. Daarnaast werkt ze aan twee IT-startups en verzorgt ze een internetcommunity over bedrijfsvoeringsinnovaties.
Dit artikel verscheen als blog op
www.fluxorcadia.com waar alle referenties
als hyperlink beschikbaar zijn.

Tag

Onderwerp



Niet gevonden? Vraag het de redactie!

Heeft u het antwoord op uw vraag niet gevonden, of bent u op zoek naar specifieke informatie? Laat het ons weten! Dan zorgen we ervoor dat deze content zo snel mogelijk wordt toegevoegd, of persoonlijk aan u wordt geleverd!

Stel uw vraag