Integrazione
Record linkage
Il record linkage è un processo importante per l’integrazione di dati provenienti da fonti diverse; esso mira ad identificare i record, riferiti alle medesime unità individuali, collocati nello stesso file (de-deduplicazione) o in file diversi (integrazione di fonti). L’identificazione dell’unità in archivi di diversa natura avviene attraverso chiavi comuni, presenti nei vari file; le chiavi possono essere anche non perfettamente corrispondenti. La complessità del record linkage dipende da molteplici aspetti, principalmente legati all’assenza di identificatori univoci o alla presenza di errori negli identificatori stessi.
Nella statistica ufficiale, l’uso di tecniche di record linkage nei vari processi di produzione è ormai diffuso da diversi anni e molteplici sono i campi di applicazione:
- individuazione dei duplicati in un file di dati individuali,
- studio dell’associazione tra variabili raccolte da fonti differenti;
- identificazione dei casi multipli attribuibili ad un singolo individuo (ad esempio ricoveri, parti, ecc.) in un archivio;
- creazione e aggiornamento di liste per la conduzione di indagini;
- re-identificazione per tutela riservatezza di micro-dati rilasciati per uso pubblico;
- determinazione della numerosità di una popolazione con il metodo cattura-ricattura;
- analisi di dati panel;
- ecc.
Il record linkage è un processo complesso a causa dei numerosi aspetti di natura diversa che lo compongono. Se negli archivi da abbinare sono presenti identificatori univoci allora il problema non ha una grande complessità; in generale però, per analizzare dati privi di identificatori univoci o con identificatori univoci affetti da errore, sono richieste sofisticate procedure statistiche; soluzioni informatiche non banali sono necessarie per gestire e trattare grandi moli di dati, mentre i vincoli legati al tipo di applicazione che si intende effettuare possono comportare la soluzione di complessi problemi di programmazione lineare.
Statistical matching
Lo statistical matching (abbinamento statistico) o data fusion si pone l’obiettivo di integrare due o più fonti dati relative alla stessa popolazione con l’intento di esplorare le relazioni tra variabili non osservate congiuntamente. Le fonti da integrare osservano unità distinte, come di solito accade quando si vogliono integrare indagini campionarie. La situazione tipica dello statistical matching è quella in cui sono disponibili due fonti dati A e B; in A sono disponibili le variabili X ed Y, mentre in B sono disponibili X e Z; l’obiettivo è quello di studiare la relazione tra Y e Z integrando le fonti dati sulla base delle informazioni in comune X. L’interesse può essere di tipo ‘macro’ o ‘micro’; nel primo caso si vogliono studiare i parametri che sintetizzano la relazione tra Y e Z, per esempio coefficiente di correlazione, coefficiente di regressione, tabella di contingenza; nel secondo caso invece si vuole ottenere un data set completo (data set sintetico) in cui sono presenti tutte le variabili di interesse, X, Y e Z.
Gli obiettivi del matching possono essere realizzati mediante l’utilizzo di metodi parametrici, non parametrici o misti.
L’approccio parametrico prevede la specificazione di un modello e la stima dei parametri che lo caratterizzano. In assenza di informazioni ausiliarie il modello generalmente assunto si basa sull’assunzione di indipendenza condizionata di Y e Z date le variabili comuni X. Tale assunzione è piuttosto forte e purtroppo nella situazione tipica del matching non può essere verificata tramite un test.
I metodi non parametrici solitamente sono applicati quando si ha un obiettivo micro. I metodi hot-deck (imputazione da donatore) sono fra i metodi non parametrici più utilizzati: si basano sull’imputazione (predizione) della variabile mancante nel data set scelto come ricevente (e.g., il data set A) selezionando dei valori dal data set donatore (B). Operativamente, ad ogni unità del data set A (unità ricevente) viene associata una osservazione in B (unità donatrice) selezionata rispetto al suo grado di similarità calcolato sulla base dei valori della variabile comune X.
In letteratura è stato introdotto anche un approccio misto che prevede un primo passo di imputazione tramite modello parametrico, ed un secondo passo di imputazione non parametrica che fa uso dei valori imputati al primo passo per il calcolo della similarità fra unità riceventi e donatrici.
Vale la pena di osservare che è possibile utilizzare un approccio alternativo basato sulla quantificazione dell’incertezza. Tale approccio non richiede l’introduzione dell’ipotesi di indipendenza condizionata o di informazioni ausiliarie sui parametri non stimabili, i.e., parametri che fanno riferimento alle relazioni fra Y e Z. Lo studio dell’incertezza non conduce però generalmente ad una stima univoca dei parametri quanto piuttosto ad un insieme di stime. L’insieme è composto da tutte le possibili stime dei parametri che fanno riferimento alle variabili Y e Z coerenti con quelle ottenibili dai dati osservati, ovvero quelle che fanno riferimento alle coppie (Y,X) e (Z,X).
L’applicazione del matching a dati provenienti da indagini campionarie complesse pone problemi aggiuntivi. In tali circostanze ai fini dell’inferenza bisogna tener conto del disegno di campionamento prescelto per selezionare il campione nonché di altre metodologie usate per far fronte a problemi di natura non campionaria (copertura e mancate risposte totali).