Anonimiseren in een agile wereld

Anonimiseren in een agile wereld

Door de nieuwe Europese privacywetgeving wordt in veel sectoren gezocht naar alternatieven voor het gebruik van echte persoonsgegevens. Tegelijkertijd is de roep om representatieve gegevens onverminderd luid. Immers, zonder betrouwbare gegevens is het niet mogelijk om te testen, onderzoek te doen, opleidingen te verzorgen of een analyse te maken.

In veel organisaties leeft nog steeds de stellige overtuiging dat alleen de ‘echte’ klant-of patiëntgegevens betrouwbaar genoeg zijn. Dit zorgt voor wat wij het ‘datadilemma’ noemen. Organisaties ervaren een grote spagaat tussen de gevoelsmatige noodzaak om ‘echte’ persoonsgegevens te gebruiken en de privacywetgeving die dat juist aan banden legt. Dit datadilemma wordt nog verder versterkt door de wens van veel organisaties om meer en meer agile te werken: als je vaker kleine stukjes software naar Productie wilt brengen, dan wordt de structurele behoefte aan betrouwbare testdata alleen maar groter.

Maar aangezien je geen echte persoonsgegevens meer mag gebruiken, betekent dit feitelijk dat je op elk gewenst moment moet kunnen beschikken over onherleidbare gegevens die wel betrouwbaar zijn.

In dit blog nemen we je aan de hand van een praktijkcase mee naar een organisatie die agile werkt. In deze case laten we je zien hoe zij het datadilemma opgelost hebben en hoe zij een oplossing hebben geïntegreerd om data te pseudonimiseren in hun CI/CD pijplijn.

De organisatie in kwestie is een grote online retailer. Om de klantervaring te optimaliseren en nieuwe functionaliteiten toe te voegen, wordt er door de eigen DevOps teams dagelijks gewerkt aan de ontwikkeling van nieuwe software. Deze software wordt elke dag gedeployed maar voordat dat kan gebeuren moet het natuurlijk wel getest zijn. In de praktijk betekent dit dat alle testomgevingen elke nacht automatisch ververst worden. Daar werd medio vorig jaar de wens aan toegevoegd dat dit moest gaan gebeuren met gepseudonimiseerde gegevens.

Samen met deze organisatie hebben wij een configuratie van de Datafactory gemaakt die de persoonsgegevens pseudonimiseert waarbij tegelijkertijd wel de bruikbaarheid gewaarborgd blijft. Om te zorgen dat deze configuratie van de Datafactory elke nacht kon draaien, is de Datafactory volledig geïntegreerd in de CI/CD pijplijn. In de praktijk betekent dit dat er elke avond automatisch een instantie van de Datafactory uit onze server gehaald wordt. Deze wordt aan de kant van de retailer gecombineerd met het configuratiebestand dat hem vertelt wat hij moet gaan doen. De instantie en de configuratie worden vervolgens automatisch op een virtuele machine geplaatst waarna de hele set gepseudonimiseerd wordt. Mede door de onderliggende hardware, duurt dit hele traject slechts een uur of 4 ondanks de enorme hoeveelheid data!

Nadat alle gegevens onherleidbaar gemaakt zijn, wordt de virtuele machine verwijderd en is alles klaar. En de volgende dag? Dan gebeurt alles automatisch weer opnieuw…

Wat deze case zo interessant maakt, is dat hier een aantal zaken samenkomt waardoor de Datafactory eigenlijk een naadloos onderdeel is geworden van de CI/ CD-pijplijn. Hiermee hebben de verschillende DevOps teams elke dag de beschikking over ‘vers’ geanonimiseerde gegevens en kunnen zij meteen beginnen met ontwikkelen en testen. En dit alles gebeurt geautomatiseerd zodat er geen beheerafdeling nodig is.

Kortom, ook in een agile omgeving kun je uitstekend werken met betrouwbare testdata en nog steeds aan de privacywetgeving voldoen. Sterker nog, misschien biedt juist een agile omgeving vele mogelijkheden.