- Home
- /
- Classificazioni e Strumenti
- /
- Metodi e software del...
- /
- Fase di elaborazione
- /
- Calcolo delle stime e...
Calcolo delle stime e degli errori campionari
Le attività che riguardano la produzione delle stime di interesse e la valutazione degli errori campionari fanno riferimento ai sottoprocessi 5.6 “Calculate weights” e 5.7 “Calculate aggregates” del GSBPM.
Produzione delle stime di interesse
Ogni metodo di stima campionaria è fondato sul principio che il sottoinsieme delle unità della popolazione incluse nel campione deve rappresentare anche il sottoinsieme complementare costituito dalle rimanenti unità della popolazione stessa. Tale principio è generalmente realizzato attribuendo a ciascuna unità inclusa nel campione un peso che può essere visto come il numero di elementi della popolazione rappresentati da tale unità.
Le indagini campionarie condotte dall’Istat sono indagini su larga scala che hanno la finalità di fornire un elevato numero di stime di parametri della popolazione che possono essere di natura differente, quali ad esempio frequenze assolute, totali, proporzioni, medie, ecc.
La stima dei parametri della popolazione può essere effettuata ricorrendo a due diversi approcci di stima:
- Metodi basati sull’approccio diretto che usano i valori della variabile di interesse osservati sulle sole unità del campione appartenenti al dominio di interesse. Sono i metodi standard utilizzati dall’Istat e in genere da tutti i più importanti Istituti Nazionali di Statistica per la produzione delle stime delle diverse indagini.
- Metodi basati sull’approccio indiretto che utilizzano i valori della variabile di interesse osservati sulle unità del campione appartenenti ad un dominio più ampio contenente il dominio di interesse e/o ad altre occasioni di indagine. Sono utilizzati, usualmente, per problemi di stima particolari, quali ad esempio quelli connessi alla produzione di stime riferite ad aree o domini in cui la dimensione campionaria risulta troppo esigua per la produzione di stime con i metodi diretti.
I metodi diretti
In generale per la stima di un totale si devono eseguire le due seguenti operazioni:
- determinare il peso da attribuire a ciascuna unità inclusa nel campione;
- calcolare la stima dei parametri di interesse come somma ponderata dei valori relativi ad una data variabile oggetto di indagine con i pesi determinati al punto 1.
Il peso da attribuire a ciascuna unità è ottenuto in base ad una procedura articolata in più fasi:
- il peso iniziale di ciascuna unità campionaria, definito peso diretto, è calcolato in funzione del disegno di campionamento adottato, come reciproco della probabilità di inclusione;
- il peso iniziale viene corretto in modo da correggere la mancata risposta totale, ottenendo il peso base;
- sono calcolati fattori correttivi del peso base per tenere conto dei vincoli di uguaglianza tra alcuni parametri noti della popolazione e le corrispondenti stime campionarie;
- il peso finale è ottenuto come prodotto tra il peso base e i fattori correttivi.
La classe degli stimatori corrispondente alle operazioni appena descritte è nota come stimatori di calibrazione o di ponderazione vincolata, in quanto sia la correzione del peso per correggere la mancata risposta totale che la correzione del peso per ottenere la coerenza con parametri della popolazione noti si ottiene risolvendo un problema di minimo vincolato. Più precisamente ciò che si vuole rendere minimo è la distanza tra il peso prima e dopo la fase di calibrazione.
Per quanto riguarda la scelta del metodo di stima il problema principale è quello di individuare uno stimatore che risponda a:
- criteri di efficienza delle stime in termini di bassa varianza campionaria e riduzione della distorsione dovuta alla presenza di mancate risposte totali e parziali e di sotto-copertura delle liste di estrazione del campione rispetto alle popolazioni oggetto di indagine;
- criteri di coerenza esterna ed interna delle stime. Il problema della coerenza esterna delle stime nasce ogniqualvolta si dispone, da fonti esterne, di totali noti aggiornati sulla popolazione oggetto di indagine. Le stime dei totali prodotte dall’indagine devono in generale coincidere o non discostarsi molto dal valore noto di tali totali. La coerenza interna delle stime si ottiene quando tutte le stime (prodotte dall’indagine) di uno stesso aggregato coincidono tra loro. Questo risultato si può ottenere utilizzando un unico sistema di pesi per il riporto dei dati all’universo.
I metodi di stima basati sulla teoria degli stimatori di ponderazione vincolata soddisfano i suddetti criteri in quanto:
- conducono, generalmente, a stime più efficienti di quelle ottenibili con gli stimatori diretti; l’efficienza è tanto maggiore quanto più alta è la correlazione tra le variabili ausiliarie e le variabili oggetto di indagine;
- sono approssimativamente non distorti rispetto al disegno di campionamento;
- portano a stime dei totali che coincidono con i valori noti di tali totali;
- attenuano l’effetto distorsivo dovuto alla presenza di mancate risposte totali;
- riducono l’effetto distorsivo dovuto alla sotto-copertura della lista da cui è selezionato il campione.
Gli stimatori di ponderazione vincolata sono utilizzati per il calcolo dei coefficienti di riporto all’universo della maggior parte delle indagini campionarie dell’Istat sulla popolazione e sulle imprese.
I metodi indiretti
I metodi di stima indiretta sono utilizzati dall’Istat per dare una risposta concreta alla crescente necessità da parte delle Amministrazioni Locali di ottenere informazioni accurate e riferibili ad aree geografiche, o più in generale a domini, di piccole dimensioni, denominate piccole aree. Le indagini campionarie condotte dall’Istat sono, tuttavia, progettate per fornire informazioni attendibili per i principali aggregati di interesse per domini di stima definiti in fase di progettazione del disegno campionario e non può essere in grado di rispondere in maniera idonea ad obiettivi di stima a livello di dettaglio maggiore.
La soluzione adottata in passato dall’Istat per ottenere stime a livello di dominio non pianificato, è stata quella di aumentare la numerosità delle unità campionarie senza modificare la strategia di campionamento adottata, ossia senza modificare né il disegno di campionamento né lo stimatore utilizzato. Il sovra-campionamento comporta tuttavia sia l’aumento dei costi e degli adempimenti operativi a carico della rete di rilevazione che l’incremento degli errori non campionari dovuto alla difficoltà di tenere sotto controllo indagini basate su campioni troppo ampi. Inoltre, il sovra-campionamento costituisce una soluzione parziale al problema di stima per piccole aree, in quanto non potendo aumentare la dimensione del campione oltre un certo limite rende possibile fornire stime attendibili soltanto per un sottoinsieme delle piccole aree di interesse.
Per tali ragioni l’Istat, fa ricorso a metodi di stima indiretti che si basano:
- sull’utilizzo di informazioni ausiliarie, correlate ai fenomeni oggetto di studio, note a livello delle piccole aree di interesse;
- sull’adozione (implicita o esplicita) di modelli statistici che legano i valori della variabile di interesse a livello di piccola area con i valori della medesima variabile relativi a un’area più grande (macroarea) contenente la piccola area di interesse e/o relativi ad altre occasioni di indagine oltre a quella corrente.
Un problema fondamentale di tali metodi è quello legato al fatto che essi si basano su modelli e pertanto le proprietà dei risultati ottenuti sono legate alla validità del modello ipotizzato. Poiché una perfetta aderenza del modello alla realtà non è mai verificata tali stimatori sono soggetti a distorsioni non misurabili che introducono forti interrogativi sulla loro utilizzazione nei casi concreti.
Valutazione degli errori campionari
Per la valutazione degli errori campionari delle stime prodotte dalle indagini Istat si fa generalmente ricorso a metodi di calcolo della varianza approssimati. Infatti, per la maggior parte delle procedure di stima impiegate non è disponibile un’espressione analitica dello stimatore della varianza, in quanto:
- le indagini Istat vengono realizzate attraverso disegni di campionamento complessi, in generale basati su più stadi di selezione, sulla stratificazione delle unità e sulla selezione delle stesse con probabilità variabili e senza ripetizione;
- le stime vengono determinate mediante l’utilizzo degli stimatori di ponderazione vincolata i quali sono funzioni non lineari delle informazioni campionarie.
I metodi di stima della varianza campionaria utilizzati generalmente in Istat sono basati sul metodo di linearizzazione di Woodruff (1971) che consente di stimare la varianza campionaria nel caso in cui gli stimatori adottati sono funzioni non lineari dei dati campionari.
Sulla base della suddetta metodologia l’Istat ha sviluppato i software generalizzati GENESEES e ReGenesees, che dispongono di un’interfaccia user friendly e sono correntemente utilizzati per la stima degli errori campionari delle stime prodotte dalle diverse indagini Istat.
Inoltre, mediante tali software, vengono calcolate importanti statistiche che consentono di effettuare un’analisi critica del disegno di campionamento adottato. In particolare è possibile valutare:
- l’efficienza complessiva del disegno di campionamento utilizzato, attraverso il rapporto tra la varianza del campione complesso utilizzato e quella di un ipotetico campione casuale semplice di pari numerosità in termini di unità finali di campionamento;
- l’impatto sull’efficienza delle stime dovuto alla stratificazione delle unità, alla definizione degli stadi di campionamento e alla ponderazione delle unità (effetto della stratificazione, effetto del disegno a più stadi).
È importante fare presente che l’Istat effettua una presentazione sintetica degli errori di campionamento mediante modelli regressivi che mettono in relazione i valori delle stime con i corrispondenti errori campionari. Tali modelli sono utilizzati per corredare le tavole pubblicate con importanti informazioni sintetiche sugli errori campionari.