Home
Programme
Registration
Route Description


Statistische beveiliging van microdatabestanden


Peter-Paul de Wolf

Centraal Bureau voor de Statistiek (CBS)


Bij statistische beveiliging van microdatabestanden kan gebruik gemaakt worden van PRAM, een Post Randomisatie Methode. Kort gezegd komt die metho\-de er op neer dat per record de score op een categoriale variabele met een vooraf bepaalde kans in een andere score wordt veranderd. Daarbij spelen dus de overgangskansen Pkl = P(X = l | x = k) een belangrijke rol. Hierin stelt X de variabele in het bestand na toepassing van RAM voor en x de variabele in het originele bestand. Dus Pkl is de kans dat de score k verandert in de score l.


Na toepassing van PRAM is in het bestand dus niet meer duidelijk of een zeldzaam lijkend persoon ook daadwerkelijk overeenkomt met een persoon die in de populatie zeldzaam is. Dit voegt extra onzekerheid toe aan een poging tot identificatie en verlaagt zo het onthullingsrisico.


In principe is er sprake van een tweetraps-procedure:


                                       πi                                         Pk

     Populatie ===> Steekproefbestand ===> gePRAMd bestand


waarbij πi het gebruikte steekproefontwerp voorstelt en Pkl de voor PRAM gebruikte overgangskansen.


Voor beide stappen is het effect op het onthullingsrisico bekend: er zijn modellen die de steekproeftrekking relateren aan het onthullingsrisico en bij toepassing van PRAM is aan te geven hoe dat het onthullingsrisico be´nvloedt. Immers via de regel van Bayes is de kans P(ξ = k | X =k) te bepalen, dus een soort onthullingsrisico naar het steekproefbestand toe.


Het CBS is echter ge´nteresseerd in het onthullingsrisico naar de populatie toe. Dit moet aan bepaalde voorwaarden voldoen (afhankelijk van het gehanteerde onthullingsscenario).


De vraag is natuurlijk hoe de overgangskansen gekozen kunnen worden, zodanig dat aan de beveiligingsvoorschriften wordt voldaan, terwijl tegelijkertijd het informatieverlies zo klein mogelijk is.


Het informatieverlies is echter niet eenduidig vast te leggen: afhankelijk van het gebruik van de microdata kan een informatieverliesmaat bedacht worden. Is het mogelijk om voor een vrij algemene klasse van informatieverliesmaten de optimale overgangskansen te bepalen? Voor verschillende onthullingsscenario's?