Wat als data wordt gezien als product?

Wat als data wordt gezien als product?
In de drukte van het inzetten van informatie- en communicatietechnologie, wordt wel eens vergeten waar het om gaat. Verreweg de meeste administraties gaan over het verzamelen, inzetten, verwerken en beheersen van gegevens ten behoeve van het samenstellen van informatie om ergens over te kunnen besluiten. De huidige werkwijze is gebaseerd op oude principes. Wat gebeurt er als we die werkwijze eens over de kop gooien?
Eind 19e eeuw zijn de eerste administraties ontstaan, bijvoorbeeld omdat mensen geld leenden. De bedragen werden in een schriftje opgeschreven. Er was een activiteitenlogboek per dag, maar daar viel niet zonder bewerking een saldo voor een persoon of voor de belener uit op te maken. Toen er meer transactielocaties kwamen werd het berekenen van het saldo lastiger. De administratie was in feite gedistribueerd en om tot een saldo te komen moesten de gegevens worden opgehaald en verwerkt voordat de gewenste informatie voorhanden was. Hierdoor ontstond vertraging in behandeling (eerst controle uitvoeren) en risico voor de onderneming (geen informatie over het actuele eigen vermogen). Deze processen liggen in feite ten grondslag aan onze hedendaagse gegevensverwerking en automatisering.
Processen als basis voor gegevens
Een organisatie heeft een doel, bijvoorbeeld finan ciën beheren, zoals een lening verstrekken. Er wordt een proces opgezet om dit doel te bereiken en dat proces heeft twee functies: 1. Het primaire bedrijfsproces om te komen tot een resultaat, bijvoorbeeld een al dan niet verstrekte lening. 2. Het secundaire proces om de bedrijfsvoering oporde te houden. Bij beide processen moet de administratieve organisatie goed worden ontworpen, zodat de gegevens die in de administratieve organisatie zijn opgenomen zowel het procesresultaat, de procesbesturing, als de bedrijfsvoering optimaal ondersteunen.
Automatisering
De automatisering van administraties startte in de jaren vijftig met het opnemen van gegevens in een database (figuur 1.1) . In de jaren tachtig worden de systemen snel ingewikkelder. De databases worden relationeel, met goed gestructureerde gegevens, waardoor dupliceren van gegevens en fouten in gegevensverwerking tot een minimum kan worden beperkt. Programmatuur zorgt ervoor dat wordt toegewerkt naar het procesresultaat en voor het bijhouden van de interne gegevens (figuur 1.2) . Ook worden verschillende systemen aan elkaar gekoppeld door dezelfde sleutelgegevens te gebruiken, zodat systemen in elkaars verlengde kunnen werken. Dit voorkomt ook dubbele opslag. Zo is systeemintegratie ontstaan (figuur 1.3) .
Bovenop de gebruikersinterface, businessregels en administratieve organisatie worden vervolgens ook de workflow en procesflow geautomatiseerd, waarmee ook de besturing (deels) is geautomatiseerd. Zo is een compleet systeem ontstaan. Vervolgens ontstaat de behoefte om ook de processen aan elkaar te koppelen. Door uitvoering van het ene proces, bijvoorbeeld het proces ‘besluit over een lening’, het andere proces te laten activeren, namelijk het proces ‘uitbetalen van bedrag lening’, is procesintegratie ontstaan (figuur 1.4) . Dit wordt gecombineerd met gegevensuitwisseling, dus met systeemintegratie.
Figuur 1. Historische weergave automatisering
 
Maatwerksystemen
Er bestaan maatwerksystemen waarin alle functies zelf zijn gebouwd, suites die veelvoorkomende functies standaard in een sluitend complex hebben geautomatiseerd, en er is service-oriented architecture (SOA), waarbij vele kleine herbruikbare (standaard-) functies aan elkaar worden gekoppeld om een proces uit te voeren. Zolang een (geautomatiseerd) systeem in zichzelf bestaansrecht heeft en slechts af en toe gegevens hoeft te delen met de omgeving is er niets mis met maatwerksystemen en suites. Echter, de behoefte groeit om de beschikbare gegevens ook voor andere doeleinden te gebruiken. In maatwerksystemen en suites zijn gegevens lang niet altijd ‘open’ benaderbaar. Dit bemoeilijkt het gebruik van die gegevens buiten het systeem aanzienlijk (figuur 2) .
Figuur 2. Netwerk data-integratie met autonome systemen
 
Het volume van gegevensuitwisseling groeit en groeit. Niet alleen de kwaliteit van gegevens, maar ook de actualiteit wordt steeds belangrijker. Gewijzigde gegevens moeten tijdig worden verwerkt in diverse administraties. De juiste gegevens moeten kunnen worden getoond op bijvoorbeeld een website waar een lener zelf zijn gegevens kan inzien en wijzigen. Naast pc’s komen er steeds meer verschillende soorten en maten eindapparatuur (smartphones, tablets, phablets, et cetera), die met apps informatie tonen met allerlei functionele mogelijkheden. Ook de pc gaat met apps werken (Windows 8, Apple OS). Nu wordt het in verband met bijvoorbeeld privacy, beveiliging, netwerkbandbreedte, et cetera, belangrijk om juiste gegevens op te halen zonder zware functionaliteit. Gegevens moeten dan op een intelligente manier kunnen worden gecombineerd, vanuit verschillende processen en gegevensbestanden, en eventueel verrijkt tot nieuwe informatie om aan de gebruiker te tonen. Zo ontstaat data-integratie (figuur 1. 5) .
Duidelijk is dat systemen steeds ingewikkelder worden en in een netwerkorganisatie met elkaar moeten kunnen samenwerken. De gegevens van verschillende systemen zijn niet altijd even gemakkelijk benaderbaar om te gebruiken voor verschillende toepassingen. Het wordt tijd om anders naar gegevens te kijken.
Nieuwe kijk op gegevens
Het is duidelijk dat de informatiehuishouding van systemen steeds ingewikkelder wordt. Processen zijn aan voortdurende verandering onderhevig, al naar gelang de ontwikkelingen binnen en buiten het bedrijf. Dit heeft effect op de administratieve organisatie en de gegevens die aan zo’n proces zijn verbonden. Er is dan eerst een goed aangepast ontwerp nodig, maar er wordt meestal doorgemodderd op basis van het oude ontwerp, waardoor systemen en modellen alleen maar ingewikkelder worden. Dit is goed te zien in het volgende voorbeeld.
Om een hogere klanttevredenheid te krijgen, worden tegenwoordig klantprocessen ingericht. Deze staan vaak haaks op bedrijfsprocessen zoals figuur 3 illustreert. Om bijvoorbeeld deze klantprocessen te ondersteunen zijn actuele gegevens nodig uit verschillende bedrijfsprocessen, maar de administratieve organisatie is niet op die manier opgebouwd. Die is namelijk als vanouds per systeem ingericht. Het is niet alleen een kwestie van het kunnen benaderen van de gewenste opgeslagen gegevens, maar ook van de betekenis van gegevens en er zijn ook nog gegevens gewenst die niet worden opgeslagen. Het is ook maar one-way: gegevens kunnen worden opgehaald en niet gewijzigd teruggezet naar de oorspronkelijk bronnen. Voor dit probleem van ontsluiten van gegevens zijn in de loop van de tijd verschillende oplossingen ontwikkeld: het dupliceren van gegevens in een kopie gegevensbestand, het datawarehouse gebruiken voor gegevenslevering of de gegevens ontsluiten met een webservice. Tegenwoordig kan ook datavirtualisatie worden ingezet.

 

Figuur 3. Voorbeeld klantprocessen werknemer
 
De conclusie is dat het geen sinecure is om gewenste gegevens uit verschillende gegevensbestanden te onttrekken. Gegevens zijn te gebruiken voor verschillende processen en niet meer voor specifiek één systeem. Dat zij nu nog ‘opgesloten’ zitten in deze bedrijfssystemen is echt zonde. Het gemis om gegevens vrijelijk te kunnen gebruiken remt vernieuwing. Het weerhoudt het kunnen werken met klantprocessen, met variaties in functionaliteit op verschillende eindapparatuur, om over grenzen van organisaties heen te werken. Zouden de gegevens vrij van bedrijfsprocessystemen zijn, dan is het aanpassen van de processen van een organisatie ook veel gemakkelijker. Kunnen gegevens niet beter de basis worden?
Gegevens als basisproduct
Wat komt er allemaal kijken bij het beantwoorden van die vraag? Zo langzamerhand wordt duidelijk dat gegevens niet meer alleen een grond-, tussen of eindproduct zijn voor het bedoelde primaire proces, maar dat gegevens op zichzelf een ‘asset’ zijn geworden: een gebruiksmiddel, een basis. Dit is duidelijk te zien in de wereld van big data waar ongeveer alles (gestructureerd of ongestructureerd) als data/gegevens wordt beschouwd en op basis van die gegevens analyses en gevolgtrekkingen worden gemaakt. Er moet nog wel wat gebeuren voordat gegevens een op zichzelf staand product zijn geworden. Dat wil zeggen dat er kwaliteitsgaranties moeten kunnen worden gegeven, er houdbaarheidsaspecten zijn, voorwaarden voor gebruik, een gebruiksaanwijzing.
De betekenis van een gegeven moet eenduidig zijn, de actualiteit, betrouwbaarheid en herkomst bekend, het gegeven moet worden beheerd, er moet eigenaarschap en een besturingsmodel zijn ingericht. Gegevens moeten worden ‘ingekocht’ van de bron en er zijn ‘verkoopkanalen’ nodig. Dat brengt dus een heel proces met zich mee. Mogelijk moet de wetgeving ook worden aangepast om de spelregels voor producten ook op dataproducten te kunnen laten gelden.
Eigenaarschap gegevens
Zolang gegevens in de bedrijfsprocessystemen zijn opgenomen wordt de eigenaar van het systeem ook gezien als eigenaar van deze gegevens. Daarmee is het eigenaarschap belegd binnen het organisatieonderdeel wat verantwoordelijk is voor de uitvoering van een bepaalde bedrijfsfunctie. Dit belemmert het inzetten van gegevens voor andere doeleinden binnen de organisatie en over organisaties heen, zoals ook prof. dr. J. Strikwerda, hoogleraar organisatieleer en organisatieverandering aan de UvA, in 2014 in Het Financieele
Dagblad naar aanleiding van de uitkomst van de parlementaire enquête naar ICT-projecten bij de overheid betoogt. Hij propageert: “Besluiten over de organisatie van informatie moeten op het hoogste niveau worden genomen. Probleem van de informatievoorziening bij de overheid is, dat deze nog steeds wordt benaderd vanuit het verouderd paradigma van business-IT-alignment.
In de moderne economie geldt informatie als een kapitaalgoed, als drager van waarde, waarvoor noodzakelijk is dat informatie breed toegankelijk is en dat deze ook voor andere doeleinden gebruikt kan worden dan waarvoor vastgelegd.” De organisatie van informatie is overigens niet hetzelfde als wat onder informatiemanagement wordt verstaan, omdat dit laatste gebruikelijk wordt gezien als een informatievoorzieningsvraagstuk, wat in de regel synoniem staat voor automatisering. Een gemiste kans voor informatiemanagement.
Gegevensproces
Om een product te maken en te onderhouden is een proces nodig. Gegevens zijn nu, zoals eerder beschreven, aanwezig in de bedrijfssystemen. Die gegevens moeten kunnen worden onttrokken (ingekocht) uit de systemen en geprepareerd worden om elders te gebruiken.
Het ‘prepareren’ gebeurd in de volgende stappen (figuur 4) : Er zijn verschillende bronnen (links). De bedrijfssystemen die ten grondslag liggen aan de bron doen aan datakwaliteit, maar er zijn nog altijd fouten te ontdekken (zoals bijvoorbeeld zwangere mannen). Bij het onttrekken van de data uit de bron zal dus ook aan foutdetectie moeten worden gedaan, in feite ‘data quality management’ (DQM). Ook moeten metagegevens worden toegekend, zoals de bron, betekenis van gegevens, et cetera. De gegevens moeten immers wel herkenbaar zijn. Meta data management (MeDM) is de benaming voor het identificeren, vastleggen en beheren van metadata.
 
Figuur 4 Gegevensproces. Zowel de centrale als de geïntegreerde database kunnen gedistribueerd en gevirtualiseerd zijn.

Er ontstaat een centrale database. Om deze data goed geïntegreerd te kunnen gebruiken in andere processen zal de betekenis en waarden van vergelijkbare gegevens dezelfde moeten zijn. Hiervoor is soms een translatie nodig. Aan de hand van de bron en de metagegevens kan met behulp van ‘regels’ translatie plaatsvinden van de (meta-) gegevens. Voorbeeld: als in de ene bron een vrouw als 1 en een man als 2 wordt weergegeven en in de andere bron als V respectievelijk M, dan staan in de centrale database beiden genoemd. Dit is onhandig als bijvoorbeeld ‘geslacht’ als basisgegeven gebruikt gaat worden in willekeurige processen. Daarom wordt in een translatieslag naar de geïntegreerde database één van beide vertaald, inclusief metagegevens.
Welke bron worden verkozen als zijnde ‘de waarheid’ wordt bepaald door master data management (MaDM). In master data management wordt bepaald welke bron het meest waarheidsgetrouw is en welke waardes en betekenissen er zijn. In voornoemde geval betreft het de keuze of het een letter of cijfer wordt en ook hoeveel waardes er mogelijk zijn. Gegeven de bron is de vertaalregel dan bijvoorbeeld dat een V een 1 moet worden en een M een 2. In de geïntegreerde database heeft het gegeven ‘geslacht’ nu dezelfde kenmerken en bijbehorende metagegevens. Het product ‘gegevens’ kan nu worden ontsloten (verkocht) voor gebruik elders.
Gegevensontsluiting
Als gegevens uit bronsystemen zo zijn bewerkt dat ze geschikt zijn om te ontsluiten, dan is het de vraag via welke ontsluitingsmiddelen (leverstraten) de ‘verkoop’ plaatsvindt. Beveiliging en privacy zijn hier van belang, naast financiële belangen. Er zijn dus contracten en controlemechanismes nodig. Vervolgens is het de vraag met welke mechanismen gegevenstoegang of data-integratie wordt vormgegeven. Denk aan webservices, notificaties, datamarts, bestanden, et cetera. Er zijn ook verschillende patronen, zoals ‘push’ of ‘pull’, synchroon of asynchroon, individueel of massaal, incidenteel of regelmatig…
Kortom, om gegevens als basisproduct te kunnen inzetten is een goed ingericht primair en secundair gegevensproces nodig. Dat bestaat uit onder andere uit expliciet eigenaarschap, besturing, management, bronontsluiting, data quality management, master data management, meta data management, beveiliging en privacy, productmanagement, inkoop- en verkoopkanalen van het product gegevens. Met een goed ingerichte administratieve organisatie, bij voorkeur geënt op een open netwerkorganisatie.
Nieuwe ontwikkelingen en technologieën
Semantische webtechnologie, linked data en open data
Met behulp van semantische webtechnologie wordt semantiek toegevoegd aan gegevens, waardoor gegevens ook betekenisvol zijn en gerelateerd kunnen worden aan andere gegevens. Zo kunnen zij in allerlei contexten ingezet worden. Dergelijke linked data kan prima binnen de grenzen van een organisatie worden ingezet en vormt daarmee een alternatief voor meer traditionele vormen van applicatie- en data-integratie.
Deze linked data kan als open data (data.overheid.nl) worden vrijgegeven, zodat ook buiten de organisatie gebruik gemaakt kan worden van deze gegevens. Is linked data de nieuwe belofte?
Cloud
In het kader van het vrijelijk in kunnen zetten van gegevens is de cloud natuurlijk geweldig. Gegevens die eenmaal in de cloud staan kunnen vrij benaderd worden door iedereen die toegang heeft tot die cloudgegevens. In een organisatie zou dat een private cloud kunnen zijn.
Big data, datamining en datascience
Wanneer er wordt gewerkt met data in grote volumes, hele snelle doorstroom of verschillende type data, wordt het big data genoemd. Er worden steeds meer bestanden opgeslagen en steeds meer apparaten wisselen ook zelf data uit. Wellicht is het is denkbaar dat big data-ontwikkelingen, die niet uitgaan van kwaliteit, maar van kwantiteit en trends, gebruikt worden om gegevens en processen op een andere manier met elkaar in relatie te brengen.
Internet of Things (IoT)
Het internet der dingen refereert aan gegevens die wordt gedeeld door semi-intelligente apparaten, zogenaamde embedded systems. Hierdoor kunnen gegevens van bijvoorbeeld metingen of status, positie en voortgang in processen worden gedeeld met personen of objecten en op basis hiervan kunnen autonome beslissingen genomen worden.
Keep on dreaming
Wat zou de wereld van gegevens mooi zijn als…
• er geen gegevens uit macht of angst voor verlies worden achtergehouden;
• processen worden vormgegeven door een netwerk van geautomatiseerde functies en gemakkelijk benaderbare gegevens, natuurlijk rekening houdend met privacy;
• eenvoudig na is te gaan wat de status, voortgang en prognose is in een proces;
• er een zeer goed ingerichte besturing en organisatie van gegevens zou zijn door de overheid;
• iedere doelgroep exclusief toegang heeft tot zijn eigen doelgebonden dataset, inclusief de doelgroep individu;
Of nog een stapje verder:
• iedereen zelf zijn eigen gegevens kan opslaan, beheren en doelgericht kan vrijgeven of zelf kan kiezen dit uit te besteden;
• een vrije gegevensmarkt met voldoende concurrentie, zodat er gekozen kan worden of en wanneer gegevens worden vrijgegeven;
• een wereldwijd zeer goed ingerichte besturing en organisatie, vormgegeven en ingekaderd door de goegemeente, zodat er in beginsel gelijkheid is tussen (ook minder grote technologische) organisaties met betrekking tot het gebruik van ieders gegevens;
• processen door individuen zelf kunnen worden aangeroepen en vormgegeven door een gebrui-kersvriendelijk configureerbaar netwerk van geau tomatiseerde functies en gemakkelijk benaderbare gegevens.
Een story
Ik kom bij mijn arts en geef hem toestemming om mijn medische gegevens uit te lezen, met nieuwe meetgegevens door de meetapparatuur zelf erbij geplaatst. We bespreken de behandeling en hij plaatst deze in mijn gegevensbestand. Hiermee kan ik bij de apotheek medicijnen halen. Geen privacy issues bij deze arts, hij heeft geen gegevensbestanden over mij. Als hij gegevens nodig heeft vraagt hij ze op: mijn elektronisch patiëntendossier heb ik zelf in beheer, wel zo veilig.
 
Carolien Glasbergen MSc. (cj@glasbergen.org) is projectmanager en heeft dit artikel op persoonlijke titel geschreven. Zonder Drs. Bram Kloos (ICT-architect) en Ir. Hans Overmeer (pensionado met interessant technologieverleden) zou dit artikel er niet zijn geweest.
 

Tag

Onderwerp



Niet gevonden? Vraag het de redactie!

Heeft u het antwoord op uw vraag niet gevonden, of bent u op zoek naar specifieke informatie? Laat het ons weten! Dan zorgen we ervoor dat deze content zo snel mogelijk wordt toegevoegd, of persoonlijk aan u wordt geleverd!

Stel uw vraag