Cyber process mining
Redactie | Verschijningsdatum 01-08-2014 | 105x bekeken
• het is de vierde meest gerapporteerde vorm van economische criminaliteit;
• het verschuift van een technologisch, naar een strategisch probleem;
• bijna de helft van de ondervraagden geeft te kennen dat het risico op deze vorm van criminaliteit de afgelopen tijd gestegen is (ten opzichte van een kwart van de ondervraagden in de voorgaande survey van 2011).
Cybercrime is, kort gezegd, het grootste risico van onze hedendaagse genetwerkte wereld: criminelen werken veelal onder de radar en buiten het directe gezichtsveld van organisaties die pas achter gedaan kwaad komen lang nadat dit heeft plaatsgevonden.
Cybersecurity speelt een rol bij het ontwerpen van een systeem, als het systeem draait (monitoring en testen op veiligheid), en bij een incident waarbij een directe en effectieve reactie nodig is. Processen spelen een grote rol bij ieder van deze momenten: het ontwerpen van een systeem volgt uit de vastlegging en definitie van gewenste processen; bij het voorkomen van incidenten wordt het ontworpen proces structureel getest op robuustheid en weerbaarheid; en het signaleren van, en reageren op incidenten gebeurt door het identificeren van uitzonderingen op ontworpen en/of ‘normale’ processen.
De link naar process mining is hiermee gelegd. Maar hoe kunnen we process mining praktisch inzetten bij een cybersecurity-onderzoek?
• de digitale analyse vindt plaats in een ‘volledig ontworpen wereld’: een digitale infrastructuur is ontworpen door mensen en men is er dus, in zekere mate, bekend mee. Uiteraard is dit niet het geval voor onze fysieke wereld. We hebben dus, relatief gezien, goed toegang tot het proces waarvan een incident deel uit maakt.
• er wordt veelal goed bijgehouden en vastgelegd wat er gebeurt door middel van logbestanden. Met forensische tools kan toegang verkregen worden tot deze informatie. Bij websites geldt deze vastlegging als een waardevolle bron van informatie, omdat met analyse achterhaald kan worden wat het gedrag is van de bezoekers van de website. Uiteraard is deze informatie goud waard als het een incident op de website betreft: er kan precies achterhaald worden wat er gebeurd is.
• de informatie is gestructureerd en kwantitatief. Zelfs de inhoud van een rapport of van een e-mailbericht kan gestructureerd worden, zodat deze kwantitatief geanalyseerd kunnen worden: er wordt bijvoorbeeld geteld welke/hoeveel woorden in de tekst voorkomen en op basis hiervan worden documenten met elkaar in verband gebracht.
• er kan gebruikgemaakt worden van geautomatiseerde analysetechnieken: de informatie kan algoritmisch geclusterd, gecategoriseerd, gemined, et cetera worden.
Het ‘Manifest process mining’ (IEEE 2011) onderschrijft drie basistypen van process mining, te weten: discovery, conformance en enhancement. Binnen forensisch onderzoek in het algemeen, en cybersecurity in het bijzonder, zijn met name de eerste twee typen relevant. Als het proces onbekend is, dan kan met process discovery getracht worden om het proces te ontdekken. Uitzonderingen op dit proces zijn dan paden dóór, of stappen ín dit proces die afwijken van het ‘normale’ pad. Indien er een blauwdruk van het proces bekend is, dan kan met process conformance geverifieerd worden of het geobserveerde proces overeenkomt met de blauwdruk. Uitzonderingen zijn in dit geval de afwijkingen van het proces, zoals het zou moeten zijn (de blauwdruk).
Het gebruik van process mining in de context van beveiliging is niet nieuw: Van der Aalst en De Medeiros (2005) zetten uiteen hoe het zogeheten alpha-algoritme gebruikt kan worden om in audit-trails beveiligingsproblemen te identificeren. Wij volgen hier nagenoeg hetzelfde traject als hen: op basis van logbestanden (te beschouwen als een audit-trail) ontdekken wij het onderliggende proces (discovery) en identificeren hierin de uitzonderingen.
Het is wellicht verrassend dat het overgrote deel van digitaal onderzoek zich nog steeds concentreert op data en niet op processen. De beschikbare data wordt als primair beschouwd, en het proces dat deze data voortbracht of waarin deze data ‘leefden’, wordt als secundair gezien. Dit is toch vreemd: de data bestaat omdat het proces bestaat en niet omgekeerd. Dan is het logisch dat juist het proces primair is en de data secundair. Daarnaast wordt het wiel nog wel eens opnieuw uitgevonden: op basis van de verzamelde data worden procesmodellen gemaakt, terwijl deze modellen veelal (wellicht in andere vorm) al beschikbaar waren ten tijde van de ontwikkeling van het systeem waar de data uit voortkwamen.
Een kwart van de respondenten van de GECS 2014 (PwC, 2014) zegt slachtoffer te zijn geweest van cybercrime. Maar van het resterende deel kan ook nog een groot deel slachtoffer geweest zijn, maar kan of wil het niet naar buiten brengen, of weet het simpelweg niet dat zij slachtoffer was. Diefstal van bedrijfsgevoelig intellectueel eigendom kan bijvoorbeeld bewust stilgehouden worden om de eigen concurrentiepositie niet te verslechten. Wat verder nog bijdraagt aan de onduidelijkheid is dat organisaties niet weten welke informatie verloren is gegaan of kunnen zij niet inzichtelijk maken wat de waarde van deze informatie is.
De casus is volledig geanonimiseerd: de hier getoonde gegevens en bevindingen zijn gefingeerd, maar we volgen dezelfde methodologie, gebruiken dezelfde tools en hanteren dezelfde aanpak als bij een werkelijke casus.
De gebruikte process-miningtools stellen ons in staat om: 1) vanaf de logfile het onderliggend proces geautomatiseerd te herleiden; 2) met de visualisatie van dit proces iteratief verdachte events op te sporen; en vervolgens 3) de details van deze events nader te analyseren.
De eerste stap wordt grotendeels door de computer gedaan. We moeten in deze stap slechts aangeven wat de informatie in de verschillende kolommen betreft. Zo geven we bijvoorbeeld aan dat de kolom met ‘login-page’, ‘login-request’, ‘login-failed’, et cetera, activiteiten betreft. Daarnaast identificeren we ook zogeheten ‘cases’: de bouwstenen op basis waarvan het proces wordt opgebouwd. Een ‘case’ is in dit geval een persoon die inlogt, verschillende


• Bij het bekijken (visuele inspectie) van het procesmodel valt het op dat er een aantal afwijkende paden zijn. Zo wordt bijvoorbeeld een aantal keer de stap ‘login-success’ overgeslagen. Dit is opmerkelijk aangezien het proces, zoals ons bekend, het niet toestaat om zonder deze stap verder te gaan naar de website. Echter, deze afwijkende paden bleken bij nadere analyse geen indicatie van een verdacht event.
• Wij lieten de software de cases in de data classificeren in hoeverre deze voldeden aan het ‘normale’ patroon. Hiermee hebben wij een groep cases geïdentificeerd die op deze manier significant afweken. In deze groep zaten een aantal verdachte cases die wij verder hebben onderzocht. Er was geen groep met alleen verdachte cases.
• Ook hebben wij verschillende verdelingen geanalyseerd die de software op eenvoudige wijze genereerde. Bijvoorbeeld van het aantal en de volgorde van activiteiten binnen een case, de duur van activiteiten en cases en de bedragen van de verhandelde aandelen. Hierbij signaleerden wij dat met name de duur van activiteiten zeer sterk verdeeld was (figuur 3).
• Ten slotte hebben wij de details van de activiteiten nader onderzocht.

Figuur 3. Tijdsduur van elk van de onderzochte gevallen
Door het iteratief en proefondervindelijk analyseren van de data kwamen wij tot een aantal verdachte events. Met deze events identificeerden wij een aantal specifieke kenmerken (bijvoorbeeld cases bestaande uit activiteiten van extreem korte duur) en konden met deze kenmerken nog meer verdachte events identificeren.
We hebben geen gebruik gemaakt van de mogelijkheid om het ontdekken en analyseren van uitzonderingen geautomatiseerd te doen (wat software zoals ProM wel kan), maar betrekken dit wel in vervolgwerk.
Martijn C. Schut is senior manager, PwC Advisory en Universitair docent, VU University Amsterdam. E-mail: martijn.schut@ nl.pwc.com en m.c.schut@vu.nl
Van der Aalst, W.M.P. & De Medeiros, A.K.A. (2005). Process Mining and Security: Detecting Anomalous Process Executions and Checking Process Conformance. Electronic Notes in Theoretical Computer Science, 121, 3–21, Elsevier.
Van der Aalst, W.M.P. (2013). Process Cubes: Slicing, Dicing, Rolling Up and Drilling Down Event Data for Process Mining. In M. Song, M. Wynn, and J. Liu, editors, Asia Pacific Conference on Business Process Management (AP-BPM 2013), volume 159 of Lecture Notes in Business Information Processing (pp. 1-22). Berlijn: Springer-Verlag.
IEEE Task Force on Process Mining (2011). Process Mining Manifesto. http://www.win.tue.nl/ieeetfpm/doku. php?id=shared:process_mining_manifesto
Casey, E. (2005). Handbook of Digital Forensics and Investigation. Academic Press.
PwC Advisory (2014). Economic crime: A threat to business globally - PwC’s 2014 Global Economic Crime Survey. http://www.pwc.nl/crimesurvey/.