Cyber process mining

Cyber process mining
Cybercrime kan worden bestreden, maar dit gebeurt momenteel niet optimaal. Technologie die automatisch digitaal-criminele activiteiten opspoort lijkt wellicht sciencefiction, maar met de huidige groei van process mining kan dit snel binnen handbereik zijn.
Martijn C. Schut
Volgens de PwC Global Economic Crime Survey (GECS) 2014 (PwC, 2014) heeft cybercrime als vorm van economische criminaliteit een steeds prominentere plek op de agenda van het bedrijfsleven:
• het is de vierde meest gerapporteerde vorm van economische criminaliteit;
• het verschuift van een technologisch, naar een strategisch probleem;
• bijna de helft van de ondervraagden geeft te kennen dat het risico op deze vorm van criminaliteit de afgelopen tijd gestegen is (ten opzichte van een kwart van de ondervraagden in de voorgaande survey van 2011).
Cybercrime is, kort gezegd, het grootste risico van onze hedendaagse genetwerkte wereld: criminelen werken veelal onder de radar en buiten het directe gezichtsveld van organisaties die pas achter gedaan kwaad komen lang nadat dit heeft plaatsgevonden.
Cybersecurity speelt een rol bij het ontwerpen van een systeem, als het systeem draait (monitoring en testen op veiligheid), en bij een incident waarbij een directe en effectieve reactie nodig is. Processen spelen een grote rol bij ieder van deze momenten: het ontwerpen van een systeem volgt uit de vastlegging en definitie van gewenste processen; bij het voorkomen van incidenten wordt het ontworpen proces structureel getest op robuustheid en weerbaarheid; en het signaleren van, en reageren op incidenten gebeurt door het identificeren van uitzonderingen op ontworpen en/of ‘normale’ processen.
De link naar process mining is hiermee gelegd. Maar hoe kunnen we process mining praktisch inzetten bij een cybersecurity-onderzoek?
 
Forensische analyse
De analyse van cybersecurity-incidenten vindt veelal plaats in de context van een forensisch onderzoek. Als er een incident heeft plaatsgevonden, dan kunnen met forensische technieken de ‘wat/hoe/wanneer’ bepaald worden. Hierbij spelen processen een cruciale rol, omdat deze de ‘wat/hoe/wanneer’ met elkaar verbinden en kunnen leiden tot antwoord op de vraag wie er achter het incident zat en waarom. Naast dit algemene argument om process mining te gebruiken bij forensische analyse, zijn er nog andere, meer praktische, zaken relevant:
• de digitale analyse vindt plaats in een ‘volledig ontworpen wereld’: een digitale infrastructuur is ontworpen door mensen en men is er dus, in zekere mate, bekend mee. Uiteraard is dit niet het geval voor onze fysieke wereld. We hebben dus, relatief gezien, goed toegang tot het proces waarvan een incident deel uit maakt.
• er wordt veelal goed bijgehouden en vastgelegd wat er gebeurt door middel van logbestanden. Met forensische tools kan toegang verkregen worden tot deze informatie. Bij websites geldt deze vastlegging als een waardevolle bron van informatie, omdat met analyse achterhaald kan worden wat het gedrag is van de bezoekers van de website. Uiteraard is deze informatie goud waard als het een incident op de website betreft: er kan precies achterhaald worden wat er gebeurd is.
• de informatie is gestructureerd en kwantitatief. Zelfs de inhoud van een rapport of van een e-mailbericht kan gestructureerd worden, zodat deze kwantitatief geanalyseerd kunnen worden: er wordt bijvoorbeeld geteld welke/hoeveel woorden in de tekst voorkomen en op basis hiervan worden documenten met elkaar in verband gebracht.
• er kan gebruikgemaakt worden van geautomatiseerde analysetechnieken: de informatie kan algoritmisch geclusterd, gecategoriseerd, gemined, et cetera worden.
 
Discovery
Process mining is een zeer krachtig middel om de forensisch onderzoeker te ondersteunen in zijn werk omdat het alle voorgenoemde aspecten raakt: het is een geautomatiseerde analyse van kwantitatieve logbestanden die afkomstig zijn uit een (grotendeels) bekend proces.
Het ‘Manifest process mining’ (IEEE 2011) onderschrijft drie basistypen van process mining, te weten: discovery, conformance en enhancement. Binnen forensisch onderzoek in het algemeen, en cybersecurity in het bijzonder, zijn met name de eerste twee typen relevant. Als het proces onbekend is, dan kan met process discovery getracht worden om het proces te ontdekken. Uitzonderingen op dit proces zijn dan paden dóór, of stappen ín dit proces die afwijken van het ‘normale’ pad. Indien er een blauwdruk van het proces bekend is, dan kan met process conformance geverifieerd worden of het geobserveerde proces overeenkomt met de blauwdruk. Uitzonderingen zijn in dit geval de afwijkingen van het proces, zoals het zou moeten zijn (de blauwdruk).
Het gebruik van process mining in de context van beveiliging is niet nieuw: Van der Aalst en De Medeiros (2005) zetten uiteen hoe het zogeheten alpha-algoritme gebruikt kan worden om in audit-trails beveiligingsproblemen te identificeren. Wij volgen hier nagenoeg hetzelfde traject als hen: op basis van logbestanden (te beschouwen als een audit-trail) ontdekken wij het onderliggende proces (discovery) en identificeren hierin de uitzonderingen.
Het is wellicht verrassend dat het overgrote deel van digitaal onderzoek zich nog steeds concentreert op data en niet op processen. De beschikbare data wordt als primair beschouwd, en het proces dat deze data voortbracht of waarin deze data ‘leefden’, wordt als secundair gezien. Dit is toch vreemd: de data bestaat omdat het proces bestaat en niet omgekeerd. Dan is het logisch dat juist het proces primair is en de data secundair. Daarnaast wordt het wiel nog wel eens opnieuw uitgevonden: op basis van de verzamelde data worden procesmodellen gemaakt, terwijl deze modellen veelal (wellicht in andere vorm) al beschikbaar waren ten tijde van de ontwikkeling van het systeem waar de data uit voortkwamen.
 
Impact
Ondanks dat cybersecurity momenteel bijzonder veel in de belangstelling staat, is de werkelijke omvang en impact van cybercrime moeilijk in kaart te brengen. Hiervoor zijn een aantal redenen aan te wijzen: er bestaat nog een zeker taboe over het naar buiten brengen van incidenten door organisaties; het is moeilijk te kwantificeren; een organisatie weet niet dat zij slachtoffer is geweest van een aanval; of de informatie over een aanval wordt niet (intern of extern) gedeeld.
Een kwart van de respondenten van de GECS 2014 (PwC, 2014) zegt slachtoffer te zijn geweest van cybercrime. Maar van het resterende deel kan ook nog een groot deel slachtoffer geweest zijn, maar kan of wil het niet naar buiten brengen, of weet het simpelweg niet dat zij slachtoffer was. Diefstal van bedrijfsgevoelig intellectueel eigendom kan bijvoorbeeld bewust stilgehouden worden om de eigen concurrentiepositie niet te verslechten. Wat verder nog bijdraagt aan de onduidelijkheid is dat organisaties niet weten welke informatie verloren is gegaan of kunnen zij niet inzichtelijk maken wat de waarde van deze informatie is.
 
Casus
We hebben process mining ingezet bij forensisch onderzoek in een casus aangaande een cybersecurity-incident (zie onderstaand kader).
 
Lessons learned
Het gebruik van process mining in de forensische analyse van de in het kader genoemde casus is uiterst effectief en nuttig geweest op een aantal verschillende vlakken. Ten eerste is het mogelijk gebleken om verdachte events succesvol te identificeren: ons doel is dus bereikt. In aanvulling hiervan zijn wij sneller tot de verdachte events gekomen, en is de efficiëntie van het zoekproces significant verhoogd. Ten tweede hebben we process mining goed kunnen inpassen in de forensische onderzoeksmethodologie. Met process mining kunnen we gestructureerd de ‘wat/hoe/wanneer’ van incidenten onderzoeken en op die manier sneller tot antwoorden op de vragen ‘wie/waarom’ komen. Ten slotte hebben we process mining zonder veel extra werk kunnen gebruiken. Vaak moeten generieke methoden bij het gebruik nog aangepast en ingevuld worden voor een specifieke casus. Maar zoals gezegd is dat hier niet het geval geweest.
 
Conclusie
Cybercrime is momenteel een ‘moving target’. Het is grotendeels onbekend wat de dreiging precies is, waar deze vandaan komt, wat de kwetsbaarheid van organisaties is en wat de impact is. Het bedrijfsleven zal uiteindelijk tekortschieten met technologie die gebaseerd is op het signaleren van bekende patronen. De noodzakelijke stap naar methoden zoals process mining ligt voor de hand: hiermee kan dynamisch naar onbekende patronen worden gezocht en op deze patronen kunnen automatisch uitzonderingen worden geïdentificeerd. Ten slotte kunnen deze uitzonderingen dan als goed- of kwaadaardig geclassificeerd worden. Dit gebeurde nu handmatig, maar het ligt voor de hand om dit in vervolgwerk met geautomatiseerde conformance checking te doen. Ook verwachten we dat in de toekomst een verschuiving gaat plaatsvinden van het reactief gebruik van deze geavanceerde technologieën bij incidenten naar continu en proactief gebruik.
 
 
KADER: Casus ontvreemde credentials
We hebben process mining ingezet bij forensisch onderzoek in de een casus aangaande een cybersecurity-incident: op een website waar aandelen verhandeld worden, zijn inloggegevens ontvreemd. Er is een aantal keer aandelen verhandeld met de gestolen credentials en er zijn logbestanden beschikbaar van de periode waarin deze credentials gebruikt zijn. Het is niet bekend van welke accounts gegevens ontvreemd zijn en er is geen blauwdruk beschikbaar van het inlogproces. Het doel is om in de beschikbare gegevens verdachte events te identificeren.
De casus is volledig geanonimiseerd: de hier getoonde gegevens en bevindingen zijn gefingeerd, maar we volgen dezelfde methodologie, gebruiken dezelfde tools en hanteren dezelfde aanpak als bij een werkelijke casus.
De gebruikte process-miningtools stellen ons in staat om: 1) vanaf de logfile het onderliggend proces geautomatiseerd te herleiden; 2) met de visualisatie van dit proces iteratief verdachte events op te sporen; en vervolgens 3) de details van deze events nader te analyseren.
 
Beschikbare gegevens
De beschikbare gegevens betreffen de logbestanden van de webserver. Om tot deze versie te komen heeft eerst een verwerkingsslag plaatsgevonden op de originele bestanden. In deze gegevens staat wie wanneer is ingelogd en iets heeft gedaan op de website (zoals portfolio bekeken, aandelen bekeken, gekocht en/of verkocht, en uitgelogd). Normaal gesproken bestaan deze logbestanden uit vele (in de orde van miljoenen) regels.
 
Tools
Voor de verwerking van de gegevens en de analyse met process mining hebben wij verschillende softwaretools gebruikt. Voor de verwerking van de originele bestanden tot de versie zoals te zien in figuur 1 hebben wij generieke Extract-Transform-Load (ETL) scripttools gebruikt. Vervolgens hebben wij met de XESame-tool, onderdeel van de ProM suite (www.promtools.org), de bestanden omgezet naar eventlogbestanden. Ten slotte hebben wij deze bestanden ingeladen in Fluxicon Disco (www.fluxicon.com) om de analyses uit te voeren.
 
Methodologie en resultaten
Onze onderzoeksmethodologie bestond uit twee stappen: eerst heeft de software op basis van de eventlogbestanden het onderliggende proces automatisch ontdekt (process discovery); daarna hebben we met behulp van de software (maar niet geautomatiseerd) iteratief het proces geanalyseerd en op deze interactieve manier stapsgewijs uitzonderingen geïdentificeerd en beoordeeld of deze verdachte events betrof.
De eerste stap wordt grotendeels door de computer gedaan. We moeten in deze stap slechts aangeven wat de informatie in de verschillende kolommen betreft. Zo geven we bijvoorbeeld aan dat de kolom met ‘login-page’, ‘login-request’, ‘login-failed’, et cetera, activiteiten betreft. Daarnaast identificeren we ook zogeheten ‘cases’: de bouwstenen op basis waarvan het proces wordt opgebouwd. Een ‘case’ is in dit geval een persoon die inlogt, verschillende
dingen doet, en vervolgens weer uitlogt. Het identificeren van de cases in de data kan veel (handmatig) werk zijn. Met deze informatie kan de software het onderliggende proces bepalen.
 
Figuur 1. Ontdekt proces voor casus
 
In figuur 1 is dit ontdekte proces te zien. Het meeste werk van onze kant heeft plaatsgevonden in de tweede stap: de interactieve en iteratieve analyse van het proces en de uitzonderingen. Hierbij hebben wij met behulp van de software, ook bekend als ‘online analytical processing’ of OLAP (Van der Aalst, 2013), een aantal analyses uitgevoerd om zo stapsgewijs tot de identificatie van een aantal verdachte events te komen. Hierbij bleek de mogelijkheid om het proces te visualiseren zeer nuttig (figuur 2).
 
Figuur 2. Het proces in beweging
 

• Bij het bekijken (visuele inspectie) van het procesmodel valt het op dat er een aantal afwijkende paden zijn. Zo wordt bijvoorbeeld een aantal keer de stap ‘login-success’ overgeslagen. Dit is opmerkelijk aangezien het proces, zoals ons bekend, het niet toestaat om zonder deze stap verder te gaan naar de website. Echter, deze afwijkende paden bleken bij nadere analyse geen indicatie van een verdacht event.
• Wij lieten de software de cases in de data classificeren in hoeverre deze voldeden aan het ‘normale’ patroon. Hiermee hebben wij een groep cases geïdentificeerd die op deze manier significant afweken. In deze groep zaten een aantal verdachte cases die wij verder hebben onderzocht. Er was geen groep met alleen verdachte cases.
• Ook hebben wij verschillende verdelingen geanalyseerd die de software op eenvoudige wijze genereerde. Bijvoorbeeld van het aantal en de volgorde van activiteiten binnen een case, de duur van activiteiten en cases en de bedragen van de verhandelde aandelen. Hierbij signaleerden wij dat met name de duur van activiteiten zeer sterk verdeeld was (figuur 3).
• Ten slotte hebben wij de details van de activiteiten nader onderzocht.

Figuur 3. Tijdsduur van elk van de onderzochte gevallen

Omdat dit ‘vrije’ tekstvelden zijn, was het niet mogelijk om dit integraal te doen voor alle data, maar hebben dit alleen gedaan voor de geselecteerde cases van eerder genoemde analyses. Hiermee konden wij nog strenger selecteren op verdachte events, wat resulteerde in een kleine verzameling van events die wij met zekerheid konden classificeren als verdacht.
Door het iteratief en proefondervindelijk analyseren van de data kwamen wij tot een aantal verdachte events. Met deze events identificeerden wij een aantal specifieke kenmerken (bijvoorbeeld cases bestaande uit activiteiten van extreem korte duur) en konden met deze kenmerken nog meer verdachte events identificeren.
We hebben geen gebruik gemaakt van de mogelijkheid om het ontdekken en analyseren van uitzonderingen geautomatiseerd te doen (wat software zoals ProM wel kan), maar betrekken dit wel in vervolgwerk.
 

Martijn C. Schut is senior manager, PwC Advisory en Universitair docent, VU University Amsterdam. E-mail: martijn.schut@ nl.pwc.com en m.c.schut@vu.nl

 
Literatuur
Van der Aalst, W.M.P. & De Medeiros, A.K.A. (2005). Process Mining and Security: Detecting Anomalous Process Executions and Checking Process Conformance. Electronic Notes in Theoretical Computer Science, 121, 3–21, Elsevier.
Van der Aalst, W.M.P. (2013). Process Cubes: Slicing, Dicing, Rolling Up and Drilling Down Event Data for Process Mining. In M. Song, M. Wynn, and J. Liu, editors, Asia Pacific Conference on Business Process Management (AP-BPM 2013), volume 159 of Lecture Notes in Business Information Processing (pp. 1-22). Berlijn: Springer-Verlag.
IEEE Task Force on Process Mining (2011). Process Mining Manifesto. http://www.win.tue.nl/ieeetfpm/doku. php?id=shared:process_mining_manifesto
Casey, E. (2005). Handbook of Digital Forensics and Investigation. Academic Press.
PwC Advisory (2014). Economic crime: A threat to business globally - PwC’s 2014 Global Economic Crime Survey. http://www.pwc.nl/crimesurvey/.
 

Tag

Onderwerp



Niet gevonden? Vraag het de redactie!

Heeft u het antwoord op uw vraag niet gevonden, of bent u op zoek naar specifieke informatie? Laat het ons weten! Dan zorgen we ervoor dat deze content zo snel mogelijk wordt toegevoegd, of persoonlijk aan u wordt geleverd!

Stel uw vraag