Synthetische data, anonimiseren, pseudonimiseren
Om bij het begin te beginnen: waarom is het anonimiseren, pseudonimiseren of genereren van synthetische data zo belangrijk?
De privacy van je huurders bewaken is vanuit de rol die de corporatie heeft ontzettend belangrijk. Het maskeren (overkoepelende term voor pseudonimiseren, anonimiseren of genereren van synthetische data) is vooral belangrijk bij het testen van nieuwe releases of bij het opleiden van nieuwe medewerkers. Wat regelmatig gebeurt, is dat er een kopie van de productieomgeving wordt gemaakt waarna deze in de testomgeving wordt gezet. In de testomgeving hebben meer medewerkers toegang en ze hebben er ook meer rechten waardoor er sneller een datalek kan ontstaan. Dat is een van de redenen waarom de nieuwe europese privacywetgeving het gebruik van echte persoonsgegevens verbiedt. De boetes zijn fors (4% van de omzet/ 20 miljoen euro) om nog maar te zwijgen over de reputatieschade.
Wat is volgens jou de essentie van het anonimiseren van data?
Bij het anonimiseren van data moet je rekening houden met het data dilemma: organisaties willen dat gegevens onherleidbaar worden maar wel bruikbaar blijven. Om dit te bereiken zijn 3 dingen van belang:
A: ketenconsistentie: om betrouwbaar te kunnen testen of een goede analyse te kunnen maken is het cruciaal dat gegevens consistent over de hele keten gemaskeerd worden. Als mevrouw Jansen na het maskeren in het ERP pakket bijvoorbeeld mevrouw de Vries heet, dan moet dit ook doorgevoerd worden in bijvoorbeeld een WBS of andere gekoppelde systemen.
B: Consistentie over tijd: als mevrouw Janssen na maskeren mevrouw de Vries wordt dan is zij dat na de volgende keer maskeren ook weer. Hiermee voorkom je dat een tester al zijn testgevallen kwijt is na een verversing van de testomgeving.
C: Bruikbaarheid: gegevens moeten onherleidbaar gemaakt worden, maar ze moeten wel bruikbaar blijven. Daarom zorgen wij er altijd zo veel mogelijk dat we bijvoorbeeld het profiel van een huurder onaangetast laten
Gebeurt het anonimiseren van testdata alleen vanwege de AVG, of zijn er ook andere redenen voor?
Ook zonder de AVG hechtten veel corporaties intrinsiek al veel waarde aan het bewaken van de privacy van de huurders. De belangrijkste reden is meestal dat corporaties het als hun plicht zien om de privacy van de huurders te bewaken
Kun je de werking van de Datafactory met een voorbeeld toelichten? Wat is hier het voordeel van? Hoe blijft de representativiteit bewaard?
Bij het anonimiseren van een systeem richten wij ons alleen op de persoonsgegevens. Alle andere gegevens blijven ongewijzigd. Hiermee hebben we al een belangrijke 1e stap gezet om de gegevens representatief te houden. De gegevens die we wel maskeren, maskeren we op zo’n manier dat het profiel van een huurder zo veel mogelijk gelijk blijft. Dus een gezin blijft herkenbaar als gezin en woont ook na het maskeren in grofweg dezelfde regio. Ook zaken zoals geboortedata passen we slim aan, zo zorgen we er bijvoorbeeld voor dat de leeftijd in jaren gelijk blijft zodat je geen minderjarige huurders krijgt… Samen met de corporatie kijken we uiteraard wel altijd naar het doel dat ze hebben met de gegevens. Waar nodig passen we de manier van maskeren hier op aan.
Jullie kunnen met de Datafactory ook ‘synthetische data’ leveren: wat is dit en hoe helpt dit een corporatie?
Synthetische testdata is data die gemaakt is zonder dat er een echt persoonsgegeven aan ten grondslag ligt. Als corporatie definieer je zelf wat voor testgevallen je nodig hebt en wij leveren die. Groot voordeel is dat er geen echte persoonsgegevens aan de basis staan van dergelijke data. Toch is synthetische data niet zaligmakend, doordat je namelijk je eigen testgevallen definieert en daar data voor maakt, test je alleen wat je verwacht tegen te komen. Stel dat je bijvoorbeeld verwacht dat alle telefoonnummers in het ERP pakket 10 karakters lang zijn en alleen maar cijfers bevatten, dan zul je geen data laten maken die 9 karakters lang is en letters bevat. De betrouwbaarheid van je testen, zeker van een acceptatietest, komt hier mee onder druk te staan.
Vorig jaar spraken wij met Frank te Velde van Domijn die de Datafactory gebruikt voor het anonimiseren van testdata, zijn er andere processen/gebieden waarbij de software corporaties kan helpen?
Jazeker, de gemaskeerde data die de Datafactory oplevert is inzetbaar voor alles buiten je reguliere productie omgeving. Denk hierbij aan een opleidingsomgeving, een data warehouse, BI etc.
Jullie werken sinds kort samen met Aareon: kun je iets meer vertellen hierover? Wat is de meerwaarde hiervan voor corporaties?
Als EntrD werken wij graag samen met leverancier van een ERP pakket. De samenwerking met Aareon is hier een mooi voorbeeld van. Door deze samenwerking kunnen wij zorgen dat de Datafactory nu en in de toekomst naadloos aansluit op de software van Aareon. Hiermee bieden we klanten van Aareon een plug & play oplossing om ketenbreed te kunnen beschikken over betrouwbare en onherleidbare gegevens. Tijdens een webinar op 17 mei om 9.00 uur gaan Arie van Deyl (de productmanager bij Aareon) en wij precies uitleggen wat we gaan aanbieden.