Tutela della riservatezza

La funzione primaria di un sistema statistico pubblico è quella di produrre statistica ufficiale per il proprio paese. Infatti, il Decreto Legislativo 6 settembre 1989, n.322, costitutivo del Sistema statistico nazionale (Sistan), cita: “L’informazione statistica ufficiale è fornita al Paese e agli organismi internazionali attraverso il Sistema statistico nazionale” (art.1, comma 2) e ancora “I dati elaborati nell’ambito delle rilevazioni statistiche comprese nel programma statistico nazionale sono patrimonio della collettività e vengono distribuiti per fini di studio e di ricerca a coloro che li richiedono secondo la disciplina del presente decreto, fermi restando i divieti di cui all’art. 9″ riguardanti il segreto statistico (art. 10 comma 1). Il Decreto Legislativo n.322/1989, inoltre, afferma che “i dati raccolti nell’ambito di rilevazioni statistiche comprese nel Programma statistico nazionale non possono essere comunicati o diffusi ad alcun soggetto esterno, pubblico o privato, né ad alcun ufficio della pubblica amministrazione se non in forma aggregata e in modo che non se ne possa trarre alcun riferimento a persone identificabili”. In ogni caso i dati non possono essere utilizzati al fine di identificare nuovamente gli interessati.

I principi generali riguardanti la tutela dei diritti dei rispondenti sono stabiliti dal Regolamento UE n. 679/2016 sul trattamento, la raccolta e la protezione dei dati personali. Alla luce della normativa europea, il Codice di deontologia e buona condotta allegato A.4 al Codice in materia di protezione dei dati personali (D.Lgs. n. 196 del 2003, modificato dal D.Lgs. n. 101 del 2018 recante le disposizioni per l’adeguamento della normativa nazionale al Regolamento UE n. 679/2016), è stato sostituito dalle Regole deontologiche per trattamenti a fini statistici o di ricerca scientifica effettuati nell’ambito del Sistema statistico nazionale (GU n.11 del 14 gennaio 2019). Tali regole definiscono, tra gli altri, il concetto di identificabilità di un’unità statistica in termini di possibilità, mediante l’uso di mezzi ragionevoli, di stabilire un’associazione significativamente probabile tra la combinazione delle modalità delle variabili relative all’unità statistica e i dati identificativi della medesima. Sono specificati, inoltre, i mezzi ragionevolmente utilizzabili per l’identificazione dell’interessato, quali ad esempio, le risorse economiche, di tempo, la possibilità di incroci con archivi nominativi o altre fonti, ecc..

La traduzione dei concetti enunciati nella legge in regole operative dal punto di vista statistico richiede preliminarmente l’individuazione delle unità statistiche soggette a rischio di identificazione e quindi una precisa definizione di cosa si intenda per violazione della riservatezza. La successiva quantificazione della probabilità di violare la riservatezza consentirà di definire le tecniche più idonee per garantire la protezione dei dati. Si verifica una violazione della riservatezza quando l’intruso (ovvero colui che tenta la violazione) riesca ad associare, con un determinato grado di certezza, le informazioni rilasciate al soggetto interessato. Il rilascio di informazione statistica con dati riservati in nessun caso riguarda le variabili che identificano univocamente l’interessato come ad esempio codice fiscale, nominativo o ragione sociale, indirizzo, ecc. Il problema si pone per le variabili che non identificano direttamente l’interessato ma che permettono di circoscriverne la popolazione di appartenenza e che l’intruso utilizzerà per i suoi scopi. Per limitare il rischio di violazione della riservatezza gli Istituti nazionali di statistica possono operare modifiche ai dati (ad esempio ricorrendo a tecniche di perturbazione), oppure ridurne il grado di dettaglio (ad esempio decidendo di non rilasciare il dettaglio comune e lasciando al suo posto la modalità provincia o regione). L’applicazione delle tecniche di protezione, sia per la diffusione di tabelle che per la comunicazione di dati elementari, comporta una riduzione o una modifica del contenuto informativo dei dati rilasciati.

La violazione della riservatezza nel rilascio di tabelle

Le tabelle rappresentano lo strumento maggiormente utilizzato dagli istituti nazionali di statistica per la diffusione dei dati aggregati, ovvero raggruppati in celle definite dagli incroci delle variabili di classificazione. Il concetto di violazione della riservatezza prescinde dal tipo di prodotto utilizzato per la diffusione. Nella definizione di informazioni “riservate” rientrano anche i dati indicati negli artt. 9 e 10 del Regolamento UE n. 679/2016, mentre non sono considerate riservate le variabili pubbliche (il carattere o la combinazione di caratteri, di tipo qualitativo o quantitativo, oggetto di una rilevazione statistica che faccia riferimento ad informazioni presenti in pubblici registri, elenchi, atti, documenti o fonti conoscibili da chiunque). Quando si intende rilasciare una tabella una prima valutazione riguarda il contenuto informativo relativo ai dati da pubblicare: se questo non ha carattere riservato non si rende necessario attuare procedure di protezione statistica dei dati, in caso contrario è necessario applicare le regole di tutela della riservatezza. Il processo volto alla protezione dei dati aggregati prevede diverse fasi. La prima fase definisce l’ambito nel quale si sta lavorando, quali tabelle si intendono trattare e le loro caratteristiche. Quindi si definisce la regola di rischio ovvero il criterio in base al quale stabilire se una cella è o meno a rischio di violazione della riservatezza. La fase finale riguarda la messa in atto delle procedure per la tutela della riservatezza.

Tabelle di Intensità

Le regole di rischio utilizzate per tabelle di intensità sono quelle basate sulla numerosità delle celle (regola della soglia o frequenza), e quelle basate su misure di concentrazione (ad esempio regola della dominanza e regola del rapporto). In Istat trova largo impiego la regola della soglia secondo la quale una cella è suscettibile di intrusione se il numero di unità in essa contenute è inferiore ad un valore n (soglia) fissato a priori. Per poter applicare questa regola a tabelle di intensità è necessario disporre della relativa tabella di frequenza. Non esiste un criterio univoco per individuare il valore soglia che dipenderà dallo scenario di intrusione ipotizzato e dai dati trattati. La regola della dominanza [(n,k)-dominance] definisce a rischio una cella se i primi n contributori detengono una percentuale del suo valore totale superiore ad una soglia k% fissata a priori. Dai due valori di n e di k dipende il livello di protezione che si vuole applicare. In base alle unità statistiche coinvolte e ai livelli di protezione desiderati è possibile definire i parametri individuando una concentrazione massima ammissibile. La regola del rapporto (p-rule) si basa sulla precisione con la quale può essere stimato il valore del primo contributore nell’ipotesi in cui il secondo contributore tenti la violazione. La cella è considerata a rischio se l’errore relativo è inferiore ad una soglia p fissata a priori. Nel caso di tabelle con possibili contributi di segno opposto le regole di rischio basate sulle misure di concentrazione perdono di significato. E’ possibile tuttavia la loro applicazione facendo ricorso ai valori assoluti dei contributi. Operare una violazione della riservatezza quando sono possibili contributi negativi risulta complesso. La raccomandazione generale è quella di parametrizzare le funzioni di rischio con valori meno stringenti rispetto al caso di contributi solo positivi. In caso di tabelle campionarie, ovvero ottenute rilevando dati su un sottoinsieme della popolazione di riferimento, la valutazione del rischio di violazione della riservatezza deve tener conto del piano di campionamento utilizzato. Il valore riportato nelle celle è una stima realizzata estendendo un valore parziale (rilevato nel campione) alla popolazione di riferimento. Le unità rilevate non sono conosciute e anche il vero valore della popolazione non viene rilevato. Per le celle che riportano dati stimati con coefficiente di riporto all’universo maggiore dell’unità il rischio di violazione è contenuto. Tuttavia un’attenta valutazione si rende necessaria quando le unità maggiormente rappresentative (dominanti) vengono incluse nel campione con certezza.

Tabelle di frequenza

Le tabelle di frequenza vengono utilizzate soprattutto per rappresentare fenomeni sociali e dati di censimento. Per questa tipologia di tabelle il criterio per stabilire se una cella è o meno a rischio è quello basato sulla numerosità delle celle (non possono infatti essere applicate regole di rischio basate sulle misure di concentrazione).

Protezione statistica delle tabelle

Individuate le celle a rischio è necessario modificare la tabella in modo opportuno rendendo anonime le informazioni in essa contenute. Le tecniche di protezione dei dati sono molteplici e vanno dall’accorpamento di modalità, a metodi basati sulla modifica dei dati originali, all’introduzione di valori mancanti (soppressioni). Le tecniche perturbative prevedono che i dati vengano modificati in modo da non poter risalire ai valori originali. In questo caso la struttura della tabella resta immutata ma non sempre è garantita l’additività tra valori interni e valori marginali. I metodi tradizionalmente utilizzati in Istat sono: la modifica delle modalità delle variabili di classificazione e l’introduzione di valori mancanti. Il primo metodo consiste nel determinare le classi in modo che non siano presenti celle utili all’intrusione. La tecnica relativa all’inserimento di valori mancanti prevede che il valore delle celle a rischio sia soppresso (oscurato). La soppressione operata sulle celle a rischio è anche detta soppressione primaria. Le celle oscurate devono distribuirsi in modo da garantire che la tabella sia protetta adeguatamente. Quando ciò non si verifica è necessario introdurre ulteriori valori mancanti tra le celle non a rischio: le soppressioni secondarie. In letteratura sono stati proposti diversi algoritmi per la determinazione del tracciato delle soppressioni secondarie. Attualmente in Istat quello maggiormente utilizzato è l’algoritmo HiTas disponibile in alcuni software generalizzati come ad esempio Tau-ARGUS.

La violazione della riservatezza nel rilascio di dati elementari

I dati elementari possono essere definiti come il prodotto finale di una rilevazione statistica dopo le fasi di progettazione, esecuzione, controllo e correzione. I dati elementari nella fase di diffusione sono un archivio di record ciascuno contenente tutte le informazioni validate (generalmente un sottoinsieme di quelle rilevate) relative a una singola unità statistica. Tali variabili, così come avviene nel caso dei dati aggregati diffusi tramite tabelle, possono essere classificate come variabili utilizzabili per la re-identificazione oppure variabili riservate.
Rispetto al caso di rilascio di tabelle cambiano sostanzialmente sia l’insieme delle variabili identificatrici che, in generale, saranno più numerose, sia il contenuto di un’eventuale violazione in quanto le variabili riservate nei dati elementari sono presenti tutte insieme. I metodi di protezione dei dati elementari sono riconducibili a tre categorie:

ricodifica di variabili (global recoding); consiste nel ridurre il dettaglio di rilascio di alcune variabili (ad esempio l’età in classi quinquennali anziché annuali);
soppressione locale di informazioni (local suppression); rimozione puntuale di caratteristiche che possono comportare una violazione della riservatezza;
perturbazione dei dati pubblicati; si applicano metodi diversi ma con le stesse finalità viste per le tabelle.

Fra le iniziative che riguardano il rilascio “protetto” dei dati elementari vanno annoverati i cosiddetti Microdata File for Research (MFR), i file ad uso pubblico (mIcro.STAT) ed il Laboratorio per l’Analisi dei Dati ELEmentari (ADELE). I file MFR vengono prodotti per rilevazioni statistiche riguardanti sia individui e famiglie sia imprese e sono realizzati specificatamente per esigenze di ricerca scientifica. Il rilascio di tali file è soggetto alla sussistenza di alcuni requisiti relativi sia all’organizzazione di appartenenza sia alle caratteristiche del progetto di ricerca per le cui finalità viene richiesto il file. I file mIcro.STAT sono file ad uso pubblico, ottenuti a partire dai rispettivi MFR, opportunamente trattati sotto il profilo della tutela della riservatezza e scaricabili direttamente dal sito Istat.
Il Laboratorio ADELE, attivo a partire dal 1999, è un cosiddetto Research Data Centre (RDC) ovvero un luogo “sicuro” cui possono accedere ricercatori e studiosi per effettuare autonomamente le proprie analisi statistiche sui dati elementari prodotti dall’Istituto nazionale di statistica nel rispetto delle norme sulla riservatezza. Principale obiettivo del laboratorio ADELE è offrire a un’utenza esterna “esperta” la possibilità di analizzare dati elementari delle principali indagini dell’Istat, spostando la fase di verifica della tutela della riservatezza sull’output dell’analisi statistica piuttosto che sull’input (come avviene nel caso dei file per la ricerca e per i file ad uso pubblico). La tutela della riservatezza per le elaborazioni effettuate presso il laboratorio ADELE viene garantita sotto diversi aspetti:

legalmente; l’utente sottoscrive un modulo in cui si impegna al rispetto di norme di comportamento specifiche;
fisicamente, attraverso il controllo dell’ambiente di lavoro; il Laboratorio è collocato presso la sede dell’Istat e le operazioni di input, output e l’accesso alla rete esterna sono inibite agli utenti;
statisticamente; tutti i risultati delle analisi sono sottoposti a verifiche prima del rilascio all’utente.

Metodi e software del processo statistico