Analyseren van gevoelige data zonder ze te zien

In het huidige bigdatatijdperk wordt het analyseren van data uit verschillende bronnen steeds belangrijker. Het koppelen van meerdere databases leidt tot betere besluitvorming, gedegener (markt)onderzoek, sterker gepersonaliseerde producten en diensten, kortom: nieuwe verdienmodellen of verhoogde impact door het verrijken van data.

Aan de andere kant zijn die relevante data vaak te gevoelig om zomaar te delen. Voor het berekenen van een benchmark in een branche zullen concurrerende bedrijven niet snel commercieel gevoelige data uitwisselen. Ook wordt het verwerken van persoonsgegevens in toenemende mate gereguleerd vanuit nieuwe privacywetgeving, waardoor juridische belemmeringen ontstaan om data te koppelen.

Secure multi-party computation
Wat veel mensen niet weten, is dat er moderne cryptografische oplossingen zijn om dit probleem op te lossen. Deze gereedschapskist, genaamd 'secure multi-party computation', maakt het mogelijk dat meerdere partijen gezamenlijk rekenen aan data, alsof ze een gedeelde database hebben, terwijl ze met wiskundige zekerheid andermans data nooit zullen inzien. Dat maakt het mogelijk om de gevoeligste databases op een veilige manier aan elkaar te knopen, waardoor de weg vrijkomt voor allerlei nieuwe producten en diensten.

Grote marktpartijen zoals Google hebben inmiddels de kracht van secure multi-party computation ontdekt. In hun eigen database houden ze bij welke mensen op welke gesponsorde links klikken. Wat ze niet weten, is of deze mensen ook daadwerkelijk de aanbevolen producten aanschaffen. Door deze nieuwe techniek kunnen ze hun database veilig koppelen met de databases van de leveranciers, en achterhalen wat de daadwerkelijke waarde is van hun advertenties, door het aantal gemeenschappelijke items van beide databases uit te rekenen. De data van de leveranciers, namelijk het individuele koopgedrag van hun klanten, komt Google niet te weten.

Vanuit de wetenschap zijn allerlei cryptografische technieken beschikbaar om op een zeer veilige manier willekeurige analyses uit te voeren op data van verschillende partijen. Volgens bepaalde communicatieprotocollen moeten de partijen tussenwaarden berekenen en versturen, om zo uiteindelijk gezamenlijk tot een bepaalde output te komen. Het is daarbij belangrijk om onderscheid te maken tussen twee securitymodellen. Enerzijds is er semi-honest security, waarbij de partijen ontvangen tussenwaarden mogen analyseren om data van anderen proberen te leren, maar ze worden wel geacht om zich aan de regels van het protocol te houden. Het andere model is malicious security, waarbij de partijen niet gebonden zijn aan de regels van het protocol, en met afwijkende tussenwaarden mogen proberen om data van anderen af te leiden. Voor beide modellen bestaan er veilige oplossingen, hoewel de oplossingen voor semi-honest security doorgaans minder rekenkracht en communicatie vergen dan die voor malicious security.

Homomorphe encryptie
Een moderne techniek die steeds meer bekendheid geniet, is homomorfe encryptie, die het mogelijk maakt om te rekenen met vercijferde data, zonder te hoeven ontcijferen. Het grote voordeel is dat gevoelige data veilig geanalyseerd kunnen worden door partijen die je niet vertrouwt. Het type bewerkingen dat je met vercijferde data kunt doen, hangt af van de soort homomorfe encryptie. Er wordt onderscheid gemaakt tussen optellingen en vermenigvuldigingen. De homomorfe encryptie die beide bewerkingen aankan, en dus alle mogelijke bewerkingen kan uitvoeren zonder te hoeven ontcijferen, noemen we 'fully homomorphic encryption'. De prijs die betaald wordt, is de verhoogde complexiteit van de bewerkingen, waardoor hogere eisen worden gesteld aan de rekenkracht en de hoeveelheid communicatie.

Secret sharing
Een andere techniek, die de laatste tijd behoorlijk versneld is, is secret sharing. Het idee van secret sharing is dat gevoelige data worden opgedeeld in een aantal shares, die worden verdeeld over de verschillende partijen. De gevoelige data zijn pas te reconstrueren wanneer alle partijen (of een voldoende groot deel ervan) hun share met elkaar combineren. Het was al een tijd bekend dat je hiermee gezamenlijke berekeningen met gevoelige data kunt doen. De efficiëntie ervan, met name in het malicious security-model, is pas recentelijk verbeterd.

Door deze versnelling is secret sharing klaar om in de praktijk toegepast te worden. Binnen enkele seconden kan Google op een veilige manier bepalen hoeveel van de miljoen records in beide databases voorkomen. Dit opent een heel nieuwe wereld van toepassingen. Binnen TNO zijn we, samen met het Centrum Wiskunde & Informatica, bezig om die toepassingen uit te werken voor de financiële en medische sector, waar veel kansen liggen om de bedrijfsvoering te verbeteren door gevoelige data op een veilige manier mee te nemen in de analyses.

De belangrijkste belemmering voor toepassing van secure multi-party computation is op dit moment de onbekendheid van de techniek, en het niet durven denken buiten de gebaande paden. Sluit uw ogen, en droom over wat je zou kunnen bereiken als je willekeurige databases op een hoop zou kunnen gooien om er gezamenlijk in te grasduinen.

Thijs Veugen is senior scientist bij TNO en gespecialiseerd in toegepaste cryptografie. Daarnaast is hij één dag per week werkzaam op de Cryptology-afdeling van het Centrum Wiskunde & Informatica.

Tag

Onderwerp



Niet gevonden? Vraag het de redactie!

Heeft u het antwoord op uw vraag niet gevonden, of bent u op zoek naar specifieke informatie? Laat het ons weten! Dan zorgen we ervoor dat deze content zo snel mogelijk wordt toegevoegd, of persoonlijk aan u wordt geleverd!

Stel uw vraag