Volwassen Datamanagement; de 4 stappen

Volwassen Datamanagement; de 4 stappen

Ongeacht of het nu over profit of non-­‐profit organisaties gaat, bij steeds meer organisaties ontstaat het besef dat goed datamanagement cruciaal is. Datamanagement gaat natuurlijk onder andere over de vraag welke persoonsgegevens vastgelegd worden in de live omgeving. Maar misschien nog wel veel meer over de vraag hoe je die gegevens buiten de live omgeving kunt gebruiken. Data wordt namelijk steeds vaker gezien als het nieuwe goud. Door data slim in te zetten, kun je als organisaties waarde creëren. Denk bijvoorbeeld aan het gebruiken van data om aankoopgedrag te kunnen voorspellen. Of bijvoorbeeld aan de mogelijkheid ziektes vroegtijdig op te sporen door medisch onderzoek te doen met gegevens van andere patiënten.

Volwassen datamanagement betekent dat je als organisatie over een aantal aspecten moet nadenken:
– Welke gegevens leg ik vast;
– Waar gebruik ik de gegevens voor;
– Hoe werk ik veilig en compliant;
– Hoeveel gegevens heb ik nodig.

De 1e stap is gelijk een van de lastigste, privacy wetgeving vraagt van je dat je zo weinig mogelijk vastlegt. Terwijl je vanuit bijvoorbeeld BI perspectief het liefst zo veel mogelijk data zou verzamelen. Er is geen goed of fout, maar belangrijk is wel dat je de keuzes die je maakt kunt onderbouwen.

Als je besloten hebt welke gegevens je wilt gaan vastleggen, dan is de volgende stap dat je besluit waar je de gegevens voor gebruikt. Uiteraard gebruik je ze binnen je primaire proces, of dat nu zorg verlenen of pakketjes versturen is. Maar de gegevens wil je waarschijnlijk ook daar buiten gebruiken. Bijvoorbeeld voor onderzoek of analyse. Of om nieuwe software te kunnen testen.

Zodra je als organisatie weet wat je wilt gaan doen met de gegevens, komt de 3e stap: hoe zorg je dat je dit veilig en compliant doet? De eisen die onder andere vanuit privacywetgeving aan het omgaan met persoonsgegevens gesteld worden, zijn streng en worden steeds strenger. Los van de wetgeving wil je natuurlijk ook als organisatie zelf dat de privacy van klanten, cliënten of patiënten gewaarborgd blijft. Zeker nu uit onderzoek duidelijk werd dat maar liefst 94% van de Nederlanders bezorgd is over de bescherming van zijn of haar gegevens door organisaties. Dit betekent concreet dat je de gegevens niet zomaar mag en kan gebruiken buiten de live omgeving. Je zult de gegevens dus onherleidbaar moeten maken waarbij je de representativiteit behoudt. In de praktijk kiezen veel organisaties er voor om dit te doen met behulp van gespecialiseerde data masking software.

En dan is er de 4e stap die je moet zetten: in welke omvang heb je de gegevens nodig? Dit klinkt misschien als een open deur, maar het is vaak niet wenselijk om de volledige productieomvang te gebruiken. Denk bijvoorbeeld aan de situatie waarbij je als zorginstelling onderzoek doet naar een mogelijk verband tussen leeftijd en aandoening bij een ziekte die alleen bij volwassen vrouwen voorkomt. In dit scenario heb je geen behoefte aan gegevens van mannen en kinderen. Die gegevens zouden het onderzoek mogelijk vervuilen en onnodig opslagruimte innemen. Het is daarom wenselijk om per scenario eenvoudig een deelverzameling (subset) te kunnen creëren die alleen maar de benodigde data bevat. Maar deze dataset moet natuurlijk wel integer zijn, alle relevante verbanden moeten bijvoorbeeld aanwezig zijn. Een subset definiëren start met een query waarbij je als organisatie definieert welke gegevens je nodig hebt. Gespecialiseerde subsetting software gebruikt die query vervolgens om geautomatiseerd alle bijbehorende gegevens uit de volledige dataset te halen. De deelverzameling die je daarna tot je beschikking hebt, bevat dus alleen de data die waarde heeft voor het scenario dat je zelf gedefinieerd hebt. Data slim subsetten levert tijdwinst op aangezien verversen van een kleinere subset sneller gaat dan het verversen van de totale productieset. Bovendien kun je aanzienlijke besparingen bereiken doordat je minder opslagruimte nodig hebt. In veel organisaties waar subsetten nog niet toegepast wordt, wordt vaak voor elk scenario een volledige productiekopie gebruikt. Dit leidt dan bijvoorbeeld tot de situatie dat je 10x de originele omvang nodig hebt qua opslag. En elke Gb kost geld. Subsetten is daarmee een oplossing waar eenvoudig geld en tijd mee bespaard wordt.

Samenvattend, volwassen datamanagement bestaat uit 4 onderdelen: wat leg ik vast, wat doe ik er mee, hoe houd ik me aan de spelregels en hoe houd ik het volume beheersbaar. Daarmee is volwassen datamanagement voor elke organisatie een cruciale factor met het oog op toekomstig succes.