Elke reis begint met de eerste stap

Elke reis begint met de eerste stap

De Algemene Verordening Gegevensbescherming (AVG) houdt de gemoederen bezig en er zijn al heel wat stappenplannen richting compliancy verschenen. Wat wij vaak missen zijn écht concrete acties. Wat kun je DOEN?

Een uitdaging is bijvoorbeeld het gebruik van persoonsgegevens buiten de productieomgeving.

Daar is grote behoefte aan, bijvoorbeeld bij het testen en demonstreren van IT-systemen en bij het maken van (medische) data-analyses. De wetgever, die het gebruik van persoonsgegevens natuurlijk stevig aan banden legt, kent die behoefte ook. Daarom stelt de wetgever drie methodes voor om hiermee om te gaan:

  • Gegevens anonimiseren
  • Gegevens pseudonimiseren
  • Data genereren

Drie smaken van hetzelfde? Nee, niet bepaald.

Ze kennen belangrijke verschillen en daarmee ook verschillende toepassingen.

Anonimiseren

Met anonimiseren zorg je dat de herleidbaarheid van persoonsgegevens wordt weggenomen. Je past de persoonsgegevens zo aan dat niet te achterhalen is bij wie ze horen. Kenmerkend is dat dit proces onomkeerbaar is: eenmaal anoniem, altijd anoniem. Cruciaal is wel dat ze hun voorspellende waarde behouden. Dat realiseer je door het profiel intact te laten. Denk aan familierelaties, leeftijden en geografische spreiding.

Geanonimiseerde gegevens zijn bij uitstek geschikt voor gebruik in testomgevingen. Daar moeten de gegevens immers representatief zijn, maar mogen ze niet herleidbaar zijn.

Pseudonimiseren

Wat nu als je wilt dat de gegevens wél weer herleidbaar gemaakt kunnen worden? Dan is pseudonimiseren de manier. Gepseudonimiseerde persoonsgegevens kun je met een sleutel altijd weer terughalen. Daarmee zijn ze per definitie minder veilig dan een geanonimiseerde set.

Toch kan die omkeerbaarheid nuttig zijn en dat heeft alles te maken met het gebruiksdoel.

Stel je een medisch onderzoek voor. Daarbij is het voor de analist niet relevant of hij naar het profiel van mevrouw Jansen of mevrouw De Vries kijkt, als het profiel maar klopt. Maar wat als de analist een afwijking ontdekt en de arts wil een patiënt vragen naar het ziekenhuis te komen? Dan moet de gepseudonimiseerde set kunnen worden ‘teruggedraaid’.

Werken met gepseudonimiseerde gegevens is dus vooral relevant in analyseomgevingen.

Je zou ze ook in een omgeving kunnen gebruiken waar je productie-incidenten analyseert.

Datageneratie

De derde optie, zelf data genereren, is in principe de veiligste. Zelf gegenereerde gegevens zijn per definitie anoniem. Voor testomgevingen is gegenereerde data uitstekend bruikbaar, ook omdat je gevallen kunt creëren die in productie nog niet voorkomen (omdat het product daar bijvoorbeeld nog niet bestaat). Daarnaast kun je de omvang eenvoudig aanpassen.

Gegenereerde data is daarom erg geschikt voor bijvoorbeeld een load test of een performance test.

Of… een slimme combinatie

Alleen gegenereerde data gebruiken is vaak niet verstandig, want ze kennen zo hun beperkingen. Het is erg lastig om historische gegevens aan te maken, je maakt alleen maar gevallen aan die je verwacht en oude producten zijn soms niet meer beschikbaar. Daarom is in een testomgeving een combinatie van gegenereerde en geanonimiseerde data vaak een uitstekende optie.

Maar hoe dan?

Data is vaak op afroep (dus snel) nodig. Daarom is een geautomatiseerd proces gewenst: data creëren (anonimiseren, pseudonimiseren of genereren) met bij wijze van spreken een druk op de knop. Dan heb je én veilige data (de kans op menselijke fouten is nul) én je kunt vlot verder met bijvoorbeeld je agile ontwikkelproces of je data-analyse.

Onze ervaring is dat het inrichten van testdatamanagement, want daar hebben we het eigenlijk over, prima getrapt kan worden aangepakt. Probeer het eerst eens met gegenereerde data. Voeg er een keer geanonimiseerde data aan toe. Elke reis, ook die naar compliancy, is een groeipad en begint met de eerste stap.

Wanneer zet jouw organisatie die eerste stap?

Als EntrD ondersteunen wij onze klanten bij het inrichten van dit proces. Wij bieden niet alleen tooling waarmee zij data kunnen anonimiseren, pseudonimiseren of genereren. Wij kijken ook met hen wat voor hen de meest passende manier is om die tools in te zetten. Wij zijn er namelijk van overtuigd dat een tool op zich nooit de oplossing is: het gaat erom dat je het proces inbedt in je organisatie.