Data anonimiseren: wel of niet zelf doen?

Data anonimiseren: wel of niet zelf doen?

Data anonimiseren: wel of niet zelf doen?

Steeds meer organisaties willen stoppen met het gebruik van ‘echte’ persoonsgegevens in hun test- en analyseomgeving. Als belangrijkste reden wordt vaak genoemd dat ze de privacy van hun klanten serieus nemen en een datalek willen voorkomen.

Vervolgens kiezen bedrijven vaak voor het onherleidbaar maken (anonimiseren) van de productiegegevens. Die gegevens zijn dan nog wel bruikbaar, maar niet meer te herleiden naar natuurlijke personen. Maar wat is de beste aanpak? Gaat u het zelf doen, of schaft u een pakket aan van een externe leverancier?

De vragen die u zich daarbij kunt stellen:

  • Zelf pionieren of kiezen voor bewezen oplossing?
  • Welke eisen stel ik aan mijn geanonimiseerde data?
  1. Welke eisen stel ik aan mijn geanonimiseerde dataset?
    Is het belangrijk dat de set zo representatief mogelijk is, of maakt dat niet uit? Met andere woorden: wilt u dat de dataset qua leeftijdsopbouw, geografische spreiding en bijvoorbeeld relaties tussen klanten representatief is voor de productieset? Of vindt u het bijvoorbeeld belangrijk dat bepaalde diakrieten ook in de geanonimiseerde set zitten?

Hoe groter de gewenste overeenkomst, hoe moeilijker te anonimiseren.

In zijn algemeenheid geldt: hoe meer de geanonimiseerde set overeen moet komen met de productieset, des te moeilijker om het zelf te anonimiseren. Vaak betekent zelf anonimiseren dat data hard wordt overschreven. Maar eventuele relaties tussen velden worden hierbij niet meegenomen.

Voorbeeld: een getrouwd stel.

Bij sec overschrijven op veldniveau bent u de relatie tussen die twee kwijt, terwijl die wel van belang kan zijn voor bijvoorbeeld een betrouwbare analyse. Het vereist een bepaalde intelligentie van je tool om te zorgen dat de namen van beide partners na anonimiseren nog hetzelfde zijn, met andere woorden: dat ze na anonimiseren nog steeds bij elkaar horen. Hetzelfde geldt als je leeftijd intact wilt houden maar wel de geboortedag wilt wijzigen. Hard overschrijven werkt dan niet meer.

  1. Wilt u zelf pionieren of ga je voor de bewezen oplossing?
    Ook als u een compleet representatieve set nodig hebt, kunt u er natuurlijk voor kiezen zelf een anonimiseeroplossing te bouwen. Maar de kosten en de benodigde tijd wegen dan al snel niet meer op tegen het kopen van een commercieel pakket. Bijkomend voordeel is vaak dat de interne discussie met de risk manager makkelijker is als een bewezen oplossing wordt gebruikt.

Maak een gefundeerde keuze
Zelf een anonimiseeroplossing bouwen is zeker mogelijk. Maar hoe meer waarde u hecht aan een representatieve testset, hoe minder aantrekkelijk die optie wordt. Ons advies is daarom om vooraf goed na te denken over wat u wilt gaan doen met de geanonimiseerde set.

Naar welke methode gaat uw voorkeur bij het anonimiseren van data?