Open informatie-georiënteerde architectuur

Open informatie-georiënteerde architectuur
Een digitale samenleving zonder grenzen vereist een architectuurstijl die maximaal is gericht op verbinden. Bij een groeiend aantal organisaties zien wij een dergelijke architectuurstijl ontstaan. Dit artikel gaat over deze architectuurstijl: de open informatie-georiënteerde architectuur.
Meer dan ooit gaat het in de moderne samenleving over het verbinden van mensen en organisaties die met elkaar samenwerken. In een digitale samenleving waar grenzen wegvallen is het van belang dat een architectuur vooral de mogelijkheden tot verbinden faciliteert. Organisaties hebben behoefte aan een open architectuur die hen in staat stelt om snel, veilig en betrouwbaar informatie uit te wisselen en afspraken te maken met steeds nieuwe partners. De service-georiënteerde architectuur heeft bijgedragen aan het slechten van de applicatiesilo’s binnen organisaties. De eindgebruiker ervaart de informatievoorziening binnen een organisatie steeds meer als één geheel. Waar de informatie-uitwisseling binnen de organisatie langzamerhand op orde komt, blijft uitwisseling over de grenzen van een organisatie lastig.
Bij een groeiend aantal organisaties zien we een nieuwe architectuurstijl ontstaan. Een stijl die is gericht op het gebruiken van internettechnologie, zoals http, REST en web API’s. En op het toepassen van semantische technologie zoals linked data en het semantic web voor het beheersen van de complexiteit van het informatielandschap. Het zijn bedrijven die werken met nieuwe businessmodellen en een grote digitale aanwezigheid kennen. Typische voorbeelden zijn Google, eBay, Amazon en Bol.com. Ook bedrijven die in belang rijke mate afhankelijk zijn van een efficiënte dis tributieketen kiezen voor deze stijl. Bedrijven als Mercedez Benz, Albert Heijn en toeleveranciers als NXP Semiconductors. Bij de Rijksoverheid hebben we deze architectuurstijl zelf in de praktijk kunnen toepassen.
Dit artikel gaat over deze nieuwe stijl. Een architectuurstijl die wel gezien wordt als de opvolger van service-georiënteerde1, namelijk: een open informatie-georiënteerde architectuur.
Informatie-georiënteerde architectuur
Een belangrijk architectuurprincipe is de afbakening van componenten met een maximale interne samenhang en een maximale ontkoppeling tussen componenten. De keerzijde van de aandacht voor begrenzingen is dat de hierop gebaseerde architecturen vanuit hun aard in meer of mindere mate gesloten zijn.
• De eerste generatie applicaties waren monolithische applicaties waarbij gegevens en functionaliteit onlosmakelijk met elkaar waren verbonden. Gegevens in monolithische applicaties hebben alleen betekenis binnen de applicatie. Een monolithische applicatie is letterlijk gesloten.
• Gegevens-georiënteerde architecturen zijn opgezet rondom een centraal gegevensmodel.
ERP-systemen zijn typische voorbeelden van dergelijke applicaties. Verbinden van applicaties kan via het centrale gegevensmodel. Dit heeft als keerzijde dat wijzigingen van dit gegevensmodel een grote impact kunnen hebben. Het gegevensmodel is weliswaar open, maar de betekenis blijft verborgen. Deze zit opgesloten in documentatie en de manier waarop applicaties en haar gebruikers gegevens plaatsen in de database.
• In bericht-georiënteerde architecturen wordt de structuur van de berichten losgekoppeld van interne gegevensmodellen. Dit vermindert de afhankelijkheid van het gegevensmodel. De betekenis van de inhoud blijft nog steeds verborgen. Deze betekenis is afhankelijk van afspraken die per berichtkoppelvlak worden gemaakt.
• In service-georiënteerde architecturen is alleen de service zichtbaar voor de buitenwereld. De betekenis van een service wordt zichtbaar gemaakt in een service-repository. De nadruk op de service maakt een service-georiënteerde architectuurstijl in essentie gesloten. In de regel is de documentatie van de service onvoldoende om zonder extra opleiding of communicatie te worden begrepen door nieuwe afnemers. De architectuur geeft geen richting aan de manier waarop de betekenis van de service ontsloten wordt. En dus nog geen grip op betekenis.2
De informatie-georiënteerde architectuur, onder andere beschreven door The Bloor Group3, voegt aan de service-georiënteerde architectuur elementen uit de business intelligence toe, zoals master data management, ETL en data virtualization. De nadruk van de informatie-georiënteerde architectuur op het ontsluiten van de betekenis van gegevens die via services worden uitgewisseld, is een duidelijke verbetering richting een open architectuur. Toch is de voorgestelde architectuur in essentie een gesloten architectuur: de gegevens zijn alleen beschikbaar voor degenen die toegang hebben tot de infrastructuur waarmee de informatie-georiënteerde architectuur is gerealiseerd, de business intelligence en master data management-systemen.
Naar een open informatiegeoriënteerde architectuur
Buiten de muren van de organisatie heeft het internet zich de afgelopen dertig jaar ontwikkeld tot een volwassen open infrastructuur. Via het world wide web is tegenwoordig vrijwel elk document, geluidsfragment of filmpje toegankelijk, opelk device en overal op de wereld. Deze resources zijn te benaderen via een identificatie in de vorm van een Uniform Resource Identifier (URI), zoals de http-variant in de adresbalk van een browser. Met html zijn de resources te bekijken en met elkaar verbonden door middel van hyperlinks. Het internet kent beveiligingsprotocollen die we voldoende vertrouwen voor geldzaken, het aangaan van contracten en persoonlijke informatie.
Het ligt voor de hand om deze infrastructuur ook te gebruiken voor de uitwisseling van gegevens. Dan ontstaat een werkelijk open informatiegeoriënteerde architectuur. Dit is een web van informatie, waarin gegevens via links naar andere (meta)gegevens zijn verbonden met hun bete kenis: het semantic web. Tim Berners-Lee, de bedenker van het world wide web, heeft het concept van uniforme identificaties, uniforme representatie en links als basis genomen voor de vier ontwerpprincipes van het semantic web. Met deze ontwerpprincipes ontstaat een semantic web van verbonden gegevens, in het Engels linked data:4
• Gebruik URI’s als identificaties voor dingen;
• Gebruikt http-URI’s, zodat je het internet informatie kunt opvragen over deze dingen;
• Lever de informatie in het model van het Resource Description Framework (RDF);
• Voeg links toe naar andere URI’s, zodat je meer dingen kunt ontdekken. Deze ontwerpprincipes leiden tot een werkelijk open architectuur. ‘Open’ is hierbij niet synoniem met openbaar en betekent ook niet dat iedereen alles mag:
• Openbare gegevens zijn gegevens waar iedereen bij mag. Zo zijn de radargegevens van het KNMI openbaar, maar ook (bijna) alle gegevens in het
Handelsregister van de Kamer van Koophandel. Openbare gegevens hoeven niet gratis te zijn, net zoals dit geldt voor het openbaar vervoer.
• Open gegevens zijn gegevens waar iedereen bij kan die daar ook bij mag. Zo kan iedereen de inhoud van de internet-encyclopedie Wikipedia bekijken.
• Open is niet onbeveiligd. Zo kan vrijwel iedereen tegenwoordig online bij zijn bankrekening, maar niet iedereen mag bij ieders bankrekening.
Wel open, niet openbaar. Het internet kent bewezen beveiligingsinstrumenten waarmee de toegang tot gevoelige gegevens is beveiligd.
De open informatie-georiënteerde architectuur richt zich op het wegnemen van drempels voor degene die bij de informatie mag en het opwerpen van muren voor degene die dat niet mag. Deze zienswijze op ‘open architecturen’ is eerder toegelicht in een artikel van Creusen.5
Praktijk
De open informatie-georiënteerde architectuur wordt op dit moment al in diverse markten toegepast. We geven hiervan enkele toonaangevende voorbeelden.
eCommerce
Grote spelers op het web als Google, Amazon, eBay en bol.com gebruiken al langer dergelijke semantische modellen. Zij doen dit vooral uit commerciële overwegingen. Voor hun business model is het cruciaal om goede zoekprofielen op te bouwen en op basis daarvan gericht te kunnen adverteren. Zij hebben elk hun eigen vocabulaire voor hun eigen producten. Daarnaast verbinden zij deze vocabulaires met de door de zoekengines gebruikte vocabulaires op schema.org. Op deze wijze wordt vraag en aanbod met elkaar verbonden.
Op Google wordt dit mooi zichtbaar. Een zoekopdracht naar Tim Berners-Lee geeft niet alleen een lijstje met links naar webpagina’s, maar toont ook kennis in de vorm van een profiel (figuur 1) .
Figuur 1. Google zoekresultaat Tim Berners-Lee
 
Productiebedrijven
Klanten en toeleveranciers van productiebedrijven hebben van alle onderdelen de juiste informatie nodig. Van belang is dat documentatie, marketinginformatie en daadwerkelijke product identiek aan elkaar zijn. NXP Semiconductors gebruikt linked data op deze wijze om een eenduidig beeld van hun producten te krijgen, afkomstig uit een groot aantal interne systemen.
Farmaceuten: openPHACTS
Een belangrijke activiteit bij het ontdekken van nieuwe medicijnen is het combineren van verschillende informatiebronnen. Dit gebeurt door het indexeren van medische artikelen, aanleggen van databases met bekende eigenschappen van eiwitten, et cetera. Een grote groep universiteiten en grote farmaceuten is tot de conclusie gekomen dat het zelf bijhouden van deze databases niet de USP is waarmee deze partijen zich willen onder scheiden. OpenPHACTS (www.openphacts.org) heeft als doel alle beschikbare kennis met behulp van semantic web-principes te ontsluiten en met elkaar te verbinden.
Financiële instellingen: FIBO Met de financiële crises werd duidelijk dat de financiële producten zo complex waren geworden dat vrijwel niemand, inclusief de instellingen zelf, meer begreep wat hun producten betekenen in termen van risico’s. De Amerikaanse overheid heeft hierop de Dodd-Frank Act in het leven geroepen. Een zeer omvangrijke wet waarin de financiële instellingen verplicht zijn om zeer gedetailleerd te rapporteren over alle financiële bezittingen die zij hebben. Dit heeft geleid tot
FIBO: een semantisch model van financiële bezit tingen. Als een instelling op deze wijze rapporteert, voldoet deze aan de wetgeving. Hoewel de gegevens zelf niet openbaar zijn, heeft deze wel een open structuur. De betekenis van de gegevens is openbaar.
Overheid
Het open beschikbaar stellen van publieke gegevens van de overheid is een van haar kerntaken.
Dit is geformaliseerd in de recent aangenomen wet op hergebruik van publieke informatie.6 Voorloper op dit gebied is de Europese Inspire-richtlijn7 voor ruimtelijke informatie. Veel openbare gegevensverzamelingen van de overheid worden dan ook steeds meer open. Zo wordt alle kennis over begrippen en gegevens in het stelsel van basisregistraties gepubliceerd in de stelselcatalogus.8 Een volgende stap is het publiceren van de gegevens zelf als linked data. Met de open basisregistraties, zoals de Basisregistratie Adressen en Gebouwen en de Basisregistratie Topografie, worden momenteel experimenten op dit gebied uitgevoerd. 9
Consequenties voor enterprisearchitectuur
In een open informatie-georiënteerde architectuur wordt gebruikgemaakt van vergaande standaardisatie van de technische infrastructuur en het gegevensmodel.
Technische infrastructuur
De infrastructuur van open informatie-georiënteerde architectuur is gebaseerd op internettechnologie. De basisinfrastructuur voor deze architectuur is bij de meeste organisaties al bekend. Bestaande infrastructuren als firewalls, webservers en webapplicatieservers zijn direct inzetbaar voor de open informatie-georiënteerde architectuur.
Ook de opslagsystemen voor de gegevens zijn bij de meeste organisaties al aanwezig. Er bestaan speciale databases voor linked data-toepassingen onder de naam ‘triple stores’. Maar ook de traditionele relationele-databaseleveranciers leveren in de nieuwste versies van hun product standaard linked data-functionaliteit.
Bij deze webinfrastructuur horen ook REST-en JSON-services, waarmee app-ontwikkelaars direct tegen de gegevens kunnen programmeren. Linked data-databases kennen de mogelijkheid van content negotiation. Dit komt erop neer dat de vorm waarin de gegevens worden gerepresenteerd is aangepast aan de vrager. Iemand die vanuit een browser gegevens opvraagt, krijgt een html-pagina te zien. Een applicatie die gegevens opvraagt krijgt een JSON-of XML-service.
Gegevensmodel
Linked data kent een vast gegevensmodel: het RDF-gegevensmodel. De kern van dit model is de ‘triple’, een drie-eenheid van subject, predicate en object. Of in het Nederlands: de gebruikelijke elementen uit een eenvoudig zin: onderwerp, gezegde en (lijdend) voorwerp. Met meerdere triples kunnen zinnen aan elkaar worden verbonden. Bijvoorbeeld de zinnen: ‘Nederland - heeft als kadastraal middelpunt - de OLV-toren in Amersfoort’, ‘De OLV-toren in Amersfoort - is gebouwd in – 1445’ en ‘Nederland - is een – Land’ (figuur 2) . Ieder subject en predicate wordt geïdentificeerd door een URI. Het object kan een URI zijn (zoals in de eerste zin), maar een ook letterlijke waarde (zoals in de tweede zin). Speciale objects zijn classificaties van dingen, zoals het object ‘Land’ in het voorbeeld.
Figuur 2. Voorbeeld van triples
 
Met een vast gegevensmodel is het noodzakelijk om andere middelen te gebruiken om betekenis te verbinden met de gegevens. Hiervoor wordt op het semantic web gebruikgemaakt van vocabulaires. Een vocabulaire is een beschrijving van de classificaties en terminologie binnen een bepaald domein. Bijzonder aan het semantic web dat voor deze beschrijving op zichzelf ook weer een vocabulaire wordt gebruikt.
Het semantic web kent een groot aantal standaard vocabulaires. SKOS (Simple Knowledge Organi - zation Systeem) is de standaard vocabulaire voor het beschrijven van begrippen en hun onderlinge relaties.10 Daarnaast zijn er vocabulaires voor het definiëren van ontologieën (OWL), herkomstinformatie (PROV) en het beschrijven van gegevensverza - melingen (DCAT). Een overzicht van door de W3C aanbevolen best practices voor het toepassen van dergelijke vocabulaires is te vinden op www. w3.org/TR/dwbp. De waarde van deze vocabulaires is dat de hiermee gedefinieerde constructies door zowel mensen als door computers kunnen worden geïnterpreteerd. En via het standaard gegevensmodel zijn zowel de vocabulaires als de gegevens en de metagegevens in triples met elkaar verbonden.
Door het verbinden van gegevens met andere gegevens, wordt het mogelijk dat derden informatie toevoegen aan een bestaande gegevensverzameling. Dit wordt het triple-A principe genoemd:
‘anybody can say anything about anything’. Dit principe past bij de open world assumption van een open architectuur, in tegenstelling tot de closed world assumption waar bestaande, gesloten architecturen vanuit gaan. De twee assumptions zijn het eenvoudigst toe te lichten aan de hand van een metafoor. Een letterbak is en voorbeeld van een systeem volgens de closed world assumption. Een letterbak kent een eindig aantal vakjes.
De betekenis van de inhoud van een vakje is vooraf bepaald. De A’s zitten linksboven, de Z’s rechtsonder. Een nieuw element, zoals een “ß”, past niet in deze gesloten wereld. Een geeltje is een voorbeeld van een systeem volgens de open world assumption. Het geeltje kan aan elk ding geplakt worden. Vooraf hoeft niet bekend te zijn wat zoal op een geeltje mag staan.
Best practises
Nederland loopt voorop in de toepassing van linked data. Zowel de Europese prijs voor de beste linked enterprise data-toepassing als voor de beste open linked data-toepassing in 2015 is gewonnen door een Nederlands initiatief.11 De afgelopen jaren is vanuit het Platform Linked Data Nederland een uitgebreid netwerk ontstaan van mensen en organisaties die zich met linked data bezighouden. Onderstaande best practices zijn ontstaan vanuit deze gemeenschap. Ze zijn meer uitgebreid beschreven op www.bp4mc2.org12 en op de website van het platform Linked Data Nederland. 13
De eerste stap in iedere architectuur is het samen met de deskundigen op een bepaald domein ontwikkelen van een begrippenkader. De hierboven aangestipte SKOS-vocabulaire is gebruikelijk om een voor mensen leesbare begrippenkader op te stellen.
Veel begrippen hebben bronnen in geschreven documenten. Bij formele registraties van de overheid, zoals basisregistraties, zijn dit wetten. Via de Dublin Core-vocabulaire kan de verbinding worden gelegd met dergelijke bronnen. Voorbeelden van begrippenkaders bij het Kadaster zijn de begrippen uit de basisregistratie Kadaster (brk. kadaster.nl) en uit de basisregistratie Adressen en Gebouwen (bag.kadaster.nl).
Vanwege het vast RDF-gegevensmodel, is een technische koppeling tussen twee informatiesystemen mogelijk zonder enig inzicht in de betekenis van de gegevens. De wendbaarheid die hierdoor ontstaat, is voor ICT-systemen bijzonder: technisch kan de koppeling al worden gebouwd, zonder dat duidelijk is waarvoor de koppeling wordt gebruikt. Toch is dit in de werkelijke wereld vrij gebruikelijk: de maker van een stopcontact weet ook niet waarvoor het stopcontact straks wordt gebruikt.
Uiteindelijk zal ook de betekenis van gegevens bekend moeten zijn. Voor eenvoudige applicaties is het voldoende als de bouwer van de applicatie precies weet wat de gegevens betekenen. Meer intelligente applicaties gebruiken een betekenisbeschrijving die voor machines leesbaar is. Hiervoor is de OWL (Web Ontology Language) vocabulaire bedoeld.
Toepassen van het principe ‘anybody can say anything about anything’ maakt het mogelijk om een eenmaal gerealiseerde verzameling van triples uit te breiden met nieuwe triples. Het semantic web kent in zijn originele vorm dan ook geen vocabulaire om de structuur waarin gegevens worden uitgewisseld te beperken. Zoals in de vorm: ‘elke persoon heeft precies één achternaam’, ‘heeft
één of meerdere voornamen’ of ‘is getrouwd met maximaal één andere persoon’. Toch kan het nuttig zijn om te beschrijven welke gegevensstructuren verondersteld mogen worden, zodat je hierop kunt vertrouwen. Recent is hiervoor de SHACL (Shapes Constraint Language)-vocabulaire ontwikkeld.
Bij het definiëren van gegevensstructuren kan ook gebruik worden gemaakt van bijvoorbeeld DCAT voor het definiëren van metagegevens (betrouw - baarheid, geldigheid en bron) en PROV (wie heeft wanneer welke handelingen uitgevoerd waarmee de gegevensvastlegging tot stand is gekomen). Zie figuur 3 .
Figuur 3. Metagegevens
Wanneer de begrippen zijn gedefinieerd en de gegevensstructuren waarin de dingen die met deze begrippen worden aangeduid worden gerepresenteerd, kunnen de gegevens zelf worden gepubliceerd. Het semantic web kent standaarden als R2RML waarmee gegevens uit een relationele database omgezet kunnen worden naar linked data. In moderne databasesystemen is deze standaard ingebouwd, zodat direct vanuit de relationele gegevensstructuur linked data beschikbaar gesteld kan worden. Maar ook bestaande ETL hulpmiddelen zijn goed bruikbaar voor het omzetten van bestaande gegevens naar linked data.
Conclusie
De open informatie-georiënteerde architectuur is beschikbaar en wordt al in verschillende sectoren toegepast. De standaarden om deze architectuur toe te passen zijn onderdeel van de standaarden van het internet en in beheer bij de W3C. Standaarden waarop we vertrouwen en waarvan de continuïteit is gegarandeerd.
De technologie om gegevens te ontsluiten via het internet is in veel gevallen bekend binnen een organisatie. De tijd is rijp om diezelfde technologie in te zetten voor het verbinden van informatiesystemen, zowel binnen als buiten een organisatie.
De paradigmashift is wezenlijk, en het is soms moeilijk te beseffen hoeveel er al mogelijk is.
De open informatie-georiënteerde architectuur brengt dat:
• Er minder spraakverwarring is binnen de organisatie – terminologie is beter op elkaar afgestemd, zonder dat dit betekent dat iedereen precies dezelfde taal moet spreken; • Het aan elkaar knopen van systemen gemakkelijker wordt – geen afstemming meer nodig over de technologie en vorm, de focus kan liggen op het harmoniseren van begrippen; • Hogere wendbaarheid ontstaat – aanpassen van het gegevensmodel of berichtformaat is niet meer de bottleneck die het in het verleden vaak was; • Leuke enterprise-applicaties weer mogelijk zijn!
De visualisaties die standaard met linked data mogelijk zijn, maken dat de gegevens op een heel andere manier worden ervaren en applicaties als innovatief en leuk worden ervaren.
 
Arjen Santema (arjen.santema@kadaster.nl) is adviseur Tactisch Informatiemanagement en Innovatie bij het Kadaster. Hij is trekker voor het onderwerp ‘Aanpak Basisregistraties’ binnen het Platform Linked Data Nederland.
Marco Brattinga (marco.brattinga@ordina.nl) is senior principal expert bij Ordina Visionworks. Hij is trekker van de Big Open Linked Data(BOLD) expertisegroep van Ordina Visionworks.
 
[1] The role of semantic models in smarter industrial operations, www.ibm.com/developerworks/libra - ry/x-ind-semanticmodels.
[2] Rijn, R. van & Santema A: Een nieuwe wereld, een nieuwe informatie architectuur, www.pilod.nl/wiki/ Boek/RijnSantema.
[3] The Bloor Group, The Information Oriented Architecture, http://www.insideanalysis.com/wpcontent/uploads/2012/04/TheIOA-WP-Final-....
[4] Design issues, http://www.w3.org/DesignIssues/LinkedData. [5] Creusen, J (2014). Open data-architectuur. Informatie, november. [6] wetten.overheid.nl/BWBR0036795.
[9] Zie bag.kadaster.nl en brt.kadaster.nl.
[10] Voskuil, J: Naar een web van kennis met SKOS; http://www.digitaleoverheid.nl/onderwerpen/ 50-actueel/praktijkverhalen/2756-naar-een-webvan-kennis-met-skos].
[12] www.bp4mc2.org, Best Practices 4 meaningfulconnected computing.
 

Tag

Onderwerp



Niet gevonden? Vraag het de redactie!

Heeft u het antwoord op uw vraag niet gevonden, of bent u op zoek naar specifieke informatie? Laat het ons weten! Dan zorgen we ervoor dat deze content zo snel mogelijk wordt toegevoegd, of persoonlijk aan u wordt geleverd!

Stel uw vraag