Nieuwe kennis uit ongestructureerde tekst

Nieuwe kennis uit ongestructureerde tekst
 
De Katholieke Universiteit Leuven en de Regiopolitie Amsterdam-Amstelland hebben nieuwe analysemethoden ontwikkeld voor ongestructureerde tekst. Het voornaamste doel is de ontwikkeling van een efficiënte en operationeel inzetbare methode om bruikbare kennis te onttrekken aan de grote hoeveelheid ongestructureerde informatie in de politiedatabases en die toe te passen om potentiële daders en slachtoffers beter en sneller te herkennen.
 
De Regiopolitie Amsterdam-Amstelland en de Katholieke Universiteit Leuven hebben de afgelopen jaren gewerkt aan de ontwikkeling van een methode om bruikbare kennis te onttrekken aan ongestructureerde informatie in politiedatabases en deze te gebruiken ter ondersteuning van het politiewerk. Dit moet leiden tot een betere en snellere herkenning van (nieuwe) potentiële daders en slachtoffers. Er is gewerkt aan drie projecten: huiselijk geweld, mensenhandel (seksuele uitbuiting) en terrorisme (moslimradicalisering).
 
Bedrijven en organisaties worden steeds meer geconfronteerd met grote hoeveelheden ongestructureerde tekst in hun databases. Het onderzoek naar tekstmining, het opdoen van nieuwe kennis uit deze gegevensverzamelingen, is echter relatief beperkt in vergelijking met de technieken die ontwikkeld zijn voor het analyseren van gestructureerde informatiebronnen. Bovendien worden er slechts weinig succesvolle toepassingen van tekstmining in de praktijk beschreven in de literatuur.
Concept discovery is een methode om de onderliggende concepten van een onderzoeksdomein en hun verborgen conceptuele relaties te ontdekken en verfijnen. Aan de basis van deze methode ligt de oorspronkelijk uit de wiskunde afkomstige techniek van formele conceptanalyse (FCA) (Wille, 1982; Ganter & Wille, 1999), waarin conceptroosters worden gebruikt om de data te visualiseren en te analyseren. Wij hebben concept discovery toegepast op domeinen als gezondheidszorg (Poelmans et al., 2010b), software engineering (Poelmans et al., 2010c), wetenschappelijke papers (Poelmans et al., 2010d) en in dit artikel gaan wij dieper in op ons onderzoek naar concept discovery in ongestructureerde tekst.
In het kader van de leerstoel ‘Knowledge Discovery in Databases’ hebben de Katholieke Universiteit Leuven en de Regiopolitie Amsterdam-Amstelland de afgelopen jaren een aantal nieuwe analysemethoden ontwikkeld voor ongestructureerde tekst. Deze analysemethoden zijn in tegenstelling tot traditionele methoden niet volledig geautomatiseerd, maar doen een sterk beroep op de domeinexpert die de visualisatie van de kennismodellen dient te interpreteren en analyseren. Zijn kennis wordt op die manier actief betrokken in het exploreren van de data. Deze analysemethoden werden toegepast op domeinen als huiselijk geweld, mensenhandelen terreur, maar kunnen ook perfect binnen andere vakgebieden gebruikt worden.
Het recent ingevoerde ‘Informatie Gestuurde Politie’-beleid heeft geleid tot een jaarlijkse toename van het aantal aandachtsvestigingen, algemene mutaties en overige meldingen binnen de politiedatabases. Het gaat hier voornamelijk om rapportages met eigen waarnemingen van de mensen op straat die worden opgeslagen als ongestructureerde tekst binnen de databases. Tot op heden werd er relatief weinig gedaan met de mogelijkheden die deze steeds groeiende, ongestructureerde, gegevensverzamelingen bieden om nieuwe gestructureerde informatie te genereren om het politiewerk beter te ondersteunen. Het hoofddoel van de samenwerking tussen de Regiopolitie Amsterdam-Amstelland en de Katholieke Universiteit Leuven werd het ontwikkelen van een nieuwe, efficiënte en operationeel inzetbare methode om bruikbare kennis aan deze grote hoeveelheden ongestructureerde informatie te onttrekken en toe te passen. Deze methoden moeten leiden tot een betere en snellere herkenning van (nieuwe) potentiële daders en slachtoffers. Voor dit doel is de afgelopen drie jaar gewerkt aan drie projecten: huiselijk geweld, mensenhandel (seksuele uitbuiting) en terrorisme (moslimradicalisering).
 
Huiselijk geweld
Het eerste project ging van start in 2007 en had als doel automatische detectie van huiselijk geweld binnen de politierapporten in de databases mogelijk te maken. Met behulp van FCA-conceptroosters werden de data geanalyseerd om interactief de onderliggende concepten en eigenschappen van huiselijk geweld (Van Dijk, 1997) af te bakenen. De eigenschappen van huiselijk geweld werden weergegeven in de vorm van indicatoren die bestaan uit woorden en/of combinaties van woorden. De open-source tool Lucene werd gebruikt om de tekstuele rapporten te indexeren met deze termen en zinnen. Met behulp van de visualisatie van de conceptroosters op basis van de indicatoren en politierapporten die een aangifte door een slachtoffer bevatten, werd het mogelijk kennisregels te ontdekken. Het proces van samenstellen van de indicatoren en kennisregels had tot gevolg dat de definitie van huiselijk geweld verder verfijnd kon worden. Zo konden situaties ontdekt worden die door rapporteurs als verwarrend werden beschouwd. Ook kwamen talloze foutief als huiselijk geweld aangemerkte zaken boven water. Dit onderzoek heeft geresulteerd in een nieuw op kennisregels gebaseerd systeem dat huiselijk-geweldzaken uit de databases selecteert (Poelmans et al. 2009; Elzinga et al., 2009). Op dit moment wordt binnen de Regiopolitie Amsterdam-Amstelland onderzocht hoe het systeem kan worden toegepast in combinatie met het landelijke beheersysteem voor gegevenskwaliteit Trueblue. Dit systeem kan overigens ook worden toegepast om andere zaken te selecteren, zoals is gedaan voor terrorisme en mensenhandel.
 
Figuur 1. Voorbeeld van visualisatie van FCA-rooster
 
In figuur 1 is een voorbeeld te zien van een visualisatie van een FCA-rooster waarmee het mogelijk is om eventueel foutief geclassificeerde huiselijk-geweldzaken te detecteren en nieuwe kennisregels te ontdekken. De knopen in het rooster geven de concepten weer. Elk concept bestaat uit twee delen: een objecten- en een attributenverzameling. De cijfers in de witte kaders geven het aantal objecten weer die tot dat concept behoren. De attributen staan vermeld in de grijze kaders. Een concept heeft een attribuut als we vertrekkend van de bijhorende knoop enkel de lijnen naar boven volgen en bij dit attribuut kunnen uitkomen. De informatie in het rooster in figuur 1 kunnen we op de volgende manier aflezen:
We nemen de knoop helemaal onderaan, dit concept bevat negen politierapporten. Volgen we de lijnen naar boven, dan komen we uit bij de attributen ‘huiselijk geweld’, ‘signalementen’ en ‘verdachte’.
Van de 218 huiselijk-geweldzaken zijn er 202 zaken (rechts naar beneden) waarbij een verdachte genoemd wordt. Verder is te zien dat er 9 zaken zijn die als huiselijk geweld gelabeld zijn waarbij zowel een verdachte genoemd wordt als een signalement aanwezig is. Nader onderzoek leert dat van deze verdachten geen vaste woonen/of verblijfplaats bekend is en dat er een opsporingsbericht is uitgegaan. Dan blijven er nog 3 huiselijk-geweldzaken over waarbij er een signalement beschikbaar is en er geen verdachte wordt genoemd. Al deze 3 zaken bleken foutief als huiselijk geweld aangemerkt te zijn. Uit deze analyse kan een kennisregel afgeleid worden dat van geweldszaken waarbij er een signalement is maar er geen verdachte wordt genoemd, met bijna 100 procent zekerheid gezegd kan worden dat het geen huiselijk geweld kan zijn.
 
 
 
Mensenhandel
De volgende stap is het toepassen van de kennisexploratietechniek FCA om (nieuwe) potentiële verdachten en slachtoffers te herkennen en te profileren. Het eerste domein was mensenhandel met als motief seksuele uitbuiting van het slachtoffer, een veelvoorkomend misdrijf waarbij de aangiftebereidheid zeer laag is (Poelmans et al., 2010a; Hughes 2000). Nadat de fase van het samenstellen van de relevante indicatoren is doorlopen, kan met deze methode een gedetailleerd profiel van een potentiële verdachte of slachtoffer gegenereerd worden met daarin de datum van observatie, de indicatoren en de contacten met andere betrokkenen. De eerste stap is het herkennen van potentiële verdachten en slachtoffers. In figuur 2 zijn de namen geanonimiseerd en is voor de leesbaarheid een aantal indicatoren weggelaten.
Figuur 2. Identificeren van potentiële verdachten van mensenhandel
 
De personen (f = female, m = male) onder in de figuur komen het eerst in aanmerking als potentiële verdachte of slachtoffer aangezien personen lager in het rooster aan meer indicatoren voldoen. Van elke persoon uit de figuur kan een afzonderlijke analyse worden gemaakt. Een selectie van een van de mannen linksonder in figuur 2 levert het in figuur 3 afgebeelde FCA-rooster op.
 
Figuur 3. Profiel van geselecteerde verdachte
 
In figuur 3 zijn verschillende tijdstippen van de waarnemingen weergegeven bij de indicatoren. De variant van FCA die gebruikmaakt van temporele gegevens is de temporele conceptanalyse (TCA) (Wolff, 2005). Uit de figuur blijkt dat man D (linksonder, vierde persoon) mogelijk verantwoordelijk is voor de logistiek, omdat deze in een dure auto rijdt waarin de inzittenden gedrag vertonen dat ze liever niet met de politie in contact willen komen. Man H (in alle objecten voorkomend) is de mogelijke pooier, waarbij vrouw S (rechtsonder, eerste persoon) zijn vermoedelijke slachtoffer is, omdat hier sprake is van prostitutie onder dwang. Aan de hand van deze figuur kan met de bijbehorende rapporten worden beoordeeld of een 27-constructie, een document op basis van artikel 273a van het wetboek van strafrecht (Staatscourant, 2006: 58) omtrent beleidsregels opsporing/bevoegdheden mensenhandel, kan worden samengesteld. Dit is een document dat voorafgaat aan eventueel verder strafrechtelijk onderzoek tegen man H.
 
Terrorisme
In het laatste project is samengewerkt met het projectteam Kennis In Modellen (KiM) van het Korps Landelijke Politie Diensten (KLPD). Daarbij werd de kennisexploratietechniek ingezet om het moslimradicaliseringsmodel van KiM te gebruiken voor het actief opsporen van potentiële terreurverdachten (Elzinga et al., 2010; AIVD, 2006). Ook hier bleek het toepassen van de kennisexploratietechniek FCA zeer bruikbaar. Werd bij mensenhandel gezocht naar profielen in de tijd, bij moslimradicalisering is sprake van een groeimodel, waarbij een potentiële verdachte verschillende fasen van radicalisering doorloopt.
Het projectteam van KiM heeft op basis van expertonderzoeken een verzameling van 35 indicatoren samengesteld op grond waarvan een persoon in een bepaalde fase kan worden gepositioneerd. Samen met de KLPD is intensief gezocht naar kenmerkende woorden en woordcombinaties voor de verschillende indicatoren. Het verschil met de voorgaande modellen is dat het KiM-model een extra dimensie toevoegt in de vorm van het aantal verschillende indicatoren waaraan een persoon moet voldoen om zich in een radicaliseringsniveau te bevinden.
De analyse is uitgevoerd op de verzameling waarnemingen uit de Basis Voorziening Handhaving (BVH)-database van AmsterdamAmstelland over de jaren 2006, 2007 en 2008, met als resultaat dat uit 166.577 rapporten 18.153 personen werden gevonden die ten minste aan één indicator voldoen (zie figuur 4).
 
Figuur 4. Identificeren van radicaliserende individuen
 
Uit deze 18.153 personen werden 38 personen gevonden die voldeden aan de eerste fase van radicalisering. Nadere analyse brengt aan het licht dat 19 terecht
geselecteerd waren, waarbij 3 personen niet als zodanig bij de Regiopolitie Amsterdam-Amstelland bekend waren, maar wel bij de KLPD. Van deze 19 personen bleken er uiteindelijk 2 te voldoen aan minimale voorwaarden van de extremistische fase. Van een van deze personen is een profiel gemaakt met alle indicatoren verspreid over de tijd.
Uit figuur 5 is af te leiden dat de betrokken persoon de extremistische fase heeft bereikt op 17 juni 2008 en na die tijd nog twee keer is waargenomen door surveillanten (de twee pijlen rechtsboven en rechtsonder in de figuur) op 11-07-2008 en 13-10-2008.
 
Figuur 5. Radicaliserend individu
 
Conclusies
De drie projecten die uitgevoerd zijn in het kader van de leerstoel geven de potentie aan van de kennisexploratietechniek van formele conceptanalyse (FCA). Voornamelijk de intuïtief interpreteerbare visuele voorstelling wordt van groot belang gevonden door de informatiespecialisten binnen de politie op zowel de strategische als de tactische en operationele niveaus. Dankzij deze visualisatie is het niet alleenmogelijk om interactief de data te verkennen en te analyseren, maar ook om de onderliggende concepten van de probleemdomeinen in kaart te brengen. Zo werden onder andere nieuwe concepten, anomalieën, verwarrende situaties en foute labels ontdekt, maar ook bij de politie niet bekende subjecten die mogelijk betrokken zijn bij mensenhandel of terroristische activiteiten. Ook de temporele variant van de formele conceptanalyse bleek van groot nut te zijn bij het profileren van verdachten en hun evolutie in de tijd. Niet eerder werden ongestructureerde informatiebronnen zodanig ontsloten dat nieuwe inzichten, verdachten en slachtoffers zichtbaar werden. Om deze reden zal FCA in de nabije toekomst een belangrijk instrument gaan vormen voor de informatiespecialisten binnen de politie en een essentiële bijdrage gaan leveren aan de vorming van intelligence binnen de Nederlandse politie.
 
Reviewer Bart Baesens
 
Literatuur
AIVD (2006). Violent jihad in the Netherlands: Current trends in the Islamist terrorist threat, https://www.aivd.nl/publish/ pages/1178/jihad2006en.pdf.
Dijk, T. van (1997). Huiselijk geweld, aard, omvang en hulpverlening. Ministerie van Justitie, Dienst Preventie, Jeugdbescherming en Reclassering. Elzinga, P. et al. (2009). Detecting domestic violence: Showcasing a Knowledge Browser based on Formal Concept Analysis and Emergent Self Organizing Maps. Proceedings 11th International Conference on Enterprise Information Systems ICEIS, Volume AIDSS, pp. 11 – 18, Milan, Italy, May 6-10, 2009.
Elzinga, P. et al. (2010). Terrorist threat assessment with Formal Concept Analysis. Proceedings IEEE International Conference on Intelligence and Security Informatics, May 23-26, 2010, Vancouver, Canada, pp. 77-82.
Ganter, B & R. Wille (1999). Formal Concept Analysis:Mathematical Foundations . Springer.
Hughes, D.M. (2000). The ‘Natasha’ Trade: The transnational shadow market of trafficking in women. Journal of International Affairs , Spring, 53, no. 2.
Poelmans, J et al. (2009). A case of using formal concept analysis in combination with emergent self organizing maps for detecting domestic violence. Lecture Notes in Computer Science, 5633, pp. 247-260. Advances in Data Mining. Applications and Theoretical Aspects, 9th Industrial Conference (ICDM), Leipzig, Germany, July 20-22, 2009, Springer.
Poelmans, J. et al. (2010a). A method based on Temporal Concept Analysis for detecting and profiling human trafficking suspects. Proceedings IASTED International Conference on Artificial Intelligence (AIA 2010), Innsbruck, Austria, 15-17 February. Acta Press, pp. 330-338.
Poelmans, J. et al. (2010b). Combining business process and data discovery techniques for analyzing and improving integrated care pathways. Lecture Notes in Computer Science, Advances in Data Mining. Applications and Theoretical Aspects, 10th Industrial Conference (ICDM), Leipzig, Germany, July 12-14, 2010. Springer.
Poelmans, J. et al. (2010c). Using Formal Concept Analysis for the Verification of Process-Data matrices in Conceptual Domain Models. Proceedings IASTED International Conference on Software Engineering (SE 2010), Feb 16-18, Innsbruck, Austria. Acta Press.
Poelmans, J. et al. (2010d). Formal Concept Analysis in knowledge discovery: a survey. Lecture Notes in Computer Science, 6208, 139-153, 18th International Conference on Conceptual Structures (ICCS): From Information to Intelligence, 26-30 July, Kuching, Sarawak, Malaysia. Springer.
Wille, R. (1982). Restructuring lattice theory: an approach based on hierarchies of concepts. In: I. Rival (red.), Ordered sets (pp. 445-470). Dordrecht-Boston: Reidel.
 
Paul Elzinga
is projectleider bij Regiopolitie AmsterdamAmstelland. E-mail: paul. elzinga@amsterdam.politie. nl.
 
Jonas Poelmans
is postdoctoraal onderzoeker aan de K.U.Leuven, Faculty of Business and Economics en aspirant van het Fonds voor Wetenschappelijk Onderzoek (FWO) Vlaanderen. E-mail: jonas. poelmans@econ.kuleuven. be.
 
Stijn Viaene
is hoogleraar aan de K.U.Leuven, Faculty of Business and Economics, en associate professor en partner aan de Vlerick Leuven Gent Management School. E-mail: stijn. viaene@econ.kuleuven.be.
 
Guido Dedene
is gewoon hoogleraar aan de K.U.Leuven, Faculty of Business and Economics, en hoogleraar aan de Universiteit van Amsterdam Business School. E-mail: guido.dedene@econ. kuleuven.be.

Tag

Onderwerp



Niet gevonden? Vraag het de redactie!

Heeft u het antwoord op uw vraag niet gevonden, of bent u op zoek naar specifieke informatie? Laat het ons weten! Dan zorgen we ervoor dat deze content zo snel mogelijk wordt toegevoegd, of persoonlijk aan u wordt geleverd!

Stel uw vraag