Ricerca
strumenti

Metodi e software del processo statistico

Preparazione degli output preliminari

In questo sottoprocesso i dati vengono trasformati in prodotti statistici. Il sottoprocesso comprende la produzione di misure aggiuntive come indici, tendenze o serie destagionalizzate, nonché la registrazione delle caratteristiche di qualità.

Costruzione e valutazione di indici compositi

Un indice composito (o indice sintetico) è una combinazione matematica (o aggregazione) di un insieme di indicatori elementari  (variabili) che rappresentano le diverse componenti di un concetto multidimensionale da misurare (per es., sviluppo, qualità della vita, benessere, ecc.). Un indicatore elementare è un dato ‘elaborato’ costruito, generalmente, rapportando un dato ‘grezzo’ ad un altro che ne costituisce una base di riferimento (per es., “reddito pro-capite”).

Quindi, gli indici sintetici sono usati per misurare concetti che non possono essere catturati da un unico indicatore.

Generalmente, un indice sintetico dovrebbe essere basato su un quadro teorico che consenta di selezionare, combinare e pesare gli indicatori elementari in modo da riflettere le dimensioni o la struttura del fenomeno che si sta misurando. Tuttavia, la sua costruzione non è semplice e, spesso, richiede una serie di decisioni/scelte (metodologiche o no) da prendere.

La procedura per costruire un indice sintetico prevede i seguenti passi.

  1. Definizione del fenomeno da misurare. La definizione del concetto dovrebbe fornire un senso chiaro di ciò che si intende misurare con l’indice sintetico. Essa dovrebbe riferirsi a un quadro teorico, comprendente diversi sottogruppi e indicatori sottostanti. Un aspetto fondamentale riguarda l’identificazione del modello di misurazione, per il quale si distinguono due diversi approcci:
    • modello riflessivo, se gli indicatori sono visti come ‘effetto’ del fenomeno da misurare, per cui un cambiamento nella variabile latente si riflette in un cambiamento degli indicatori osservati (gli indicatori sono intercambiabili e le correlazioni tra di essi sono spiegate dal modello);
    • modello formativo, se gli indicatori sono visti come ‘causa’ del fenomeno da misurare, per cui un cambiamento nella variabile latente non implica necessariamente un cambiamento di tutti gli indicatori osservati (gli indicatori non sono intercambiabili e le correlazioni tra di essi non sono spiegate dal modello).
  2. Selezione di un gruppo di indicatori elementari. La forza e la debolezza di un indice sintetico riflettono la qualità degli indicatori elementari sottostanti. Gli indicatori dovrebbero essere selezionati in base alla loro rilevanza, validità, tempestività, disponibilità, ecc. La fase di selezione è il risultato di un compromesso tra possibili ridondanze e perdita di informazione. Un approccio statistico alla scelta degli indicatori consiste nel calcolare le correlazioni tra potenziali indicatori e includere quelli meno correlati tra loro. Tuttavia, il processo di selezione dipende dal modello di misurazione adottato: in un modello riflessivo, tutti gli indicatori devono essere correlati tra loro, mentre in un modello formativo possono essere incorrelati.
  3. Normalizzazione degli indicatori elementari. La normalizzazione ha lo scopo di rendere gli indicatori comparabili in quanto essi, spesso, sono espressi in unità di misura diverse e possono avere polarità La ‘polarità’ (o ‘verso’) di un indicatore elementare è il segno della relazione tra l’indicatore e il fenomeno da misurare (per es., nella costruzione di un indice sintetico di sviluppo, la “speranza di vita” ha polarità positiva, mentre la “mortalità infantile” ha polarità negativa). Pertanto, è necessario portare gli indicatori a uno stesso standard, invertendo la polarità, laddove necessario, e trasformandoli in numeri puri, adimensionali. Esistono vari metodi di normalizzazione, come la trasformazione in indici relativi (o metodo Min-Max) e la standardizzazione (calcolo dei z-scores).
  4. Aggregazione degli indicatori normalizzati. E’ la combinazione di tutte le componenti per formare l’indice sintetico (funzione matematica). Tale passo richiede la definizione dell’importanza di ciascun indicatore elementare (sistema di ponderazione) e l’identificazione della tecnica di sintesi (compensativa o non-compensativa). Il sistema più semplice e usato per la definizione del sistema di ponderazione – ma non per questo esente da critiche – consiste nell’assegnare lo stesso peso a tutti gli indicatori. Per quanto riguarda la tecnica di sintesi, si distinguono due approcci:
    • approccio compensativo, se gli indicatori elementari sono considerati sostituibili; gli indicatori elementari sono detti ‘sostituibili’ se un deficit in un indicatore può essere compensato da un surplus in un altro (per es., un valore basso in “Percentuale di persone che hanno partecipato ad attività spirituali o religiose” può essere compensato da un valore alto in “Percentuale di persone che hanno partecipato a incontri di associazioni ricreative o culturali” e viceversa). In tal caso,  si adottano delle funzioni lineari, come la media aritmetica;
    • approccio non compensativo, se gli indicatori elementari sono considerati non-sostituibili; gli indicatori elementari sono detti ‘non-sostituibili’ se un deficit in un indicatore non può essere compensato da un surplus in un altro (per es., un valore basso in “Letti di ospedale per 1.000 abitanti” non può essere compensato da un valore alto in “Medici per 1.000 abitanti” e viceversa). In tal caso, si adottano delle funzioni non lineari in cui si tiene conto – implicitamente o esplicitamente – dello sbilanciamento tra i diversi valori, in termini di penalizzazione.
  5. Validazione dell’indice sintetico. Consiste nel verificare che l’indice sintetico è coerente con il quadro teorico generale. In particolare, occorre valutare la capacità dell’indice di produrre risultati stabili e corretti (Analisi di Influenza e/o Analisi di Robustezza) e la sua capacità discriminante.

Destagionalizzazione di serie storiche

La stagionalità, nella dinamica di una serie storica, è quella componente che si ripete ad intervalli regolari ogni anno, con variazioni di intensità più o meno analoga nello stesso periodo (mese, trimestre, etc.) di anni successivi e di intensità diversa nel corso di uno stesso anno. La sua presenza, potendo mascherare altri movimenti di interesse, tipicamente le fluttuazioni cicliche, viene spesso considerata di disturbo nell’analisi della congiuntura economica; essa, ad esempio, rende problematica l’interpretazione delle variazioni osservate su una serie storica tra due periodi consecutivi dell’anno (cd. variazione congiunturale), essendo queste spesso influenzate in misura prevalente dalle oscillazioni stagionali piuttosto che da movimenti dovuti ad altre cause (come al ciclo economico). Questi ultimi possono essere, invece, correttamente evidenziati calcolando le variazioni congiunturali sui dati destagionalizzati, dai quali, cioè, è stata opportunamente rimossa la componente stagionale.

Tale trasformazione dei dati risulta, quindi, opportuna nell’analisi della congiuntura economica, per poter cogliere in maniera più chiara l’evoluzione di breve termine dei fenomeni considerati. L’impiego di dati in forma destagionalizzata trova, inoltre, ampia applicazione nell’utilizzo congiunto delle statistiche prodotte da diversi Paesi, poiché permette di comparare in maniera più idonea l’evoluzione di diverse serie storiche, ciascuna caratterizzata da uno specifico profilo stagionale.

Un’altra pratica, strettamente connessa alla precedente, è quella di correggere i dati per la cosiddetta componente di calendario, determinata dalla diversa composizione del calendario nei singoli periodi dell’anno, che contribuisce anch’essa ad offuscare il segnale congiunturale di interesse. Il diverso numero di giorni lavorativi o di giorni specifici della settimana in essi contenuti, come anche il modo in cui si collocano, nei periodi messi a confronto, le festività nazionali civili e religiose, fisse e mobili, e gli anni bisestili, possono costituire una fonte di variazione di breve periodo per molte serie storiche. Tali effetti, non necessariamente analoghi tra paesi o settori, inficiano la comparabilità nel tempo dei fenomeni economici e pertanto sono spesso rimossi unitamente alla componente stagionale. Il ricorso a tale trasformazione dei dati consente, in particolare, di cogliere in maniera più adeguata sia le variazioni tendenziali (calcolate rispetto allo stesso periodo dell’anno precedente), sia le variazioni medie annue. In molti casi, accanto ai dati destagionalizzati e corretti, vengono prodotte anche serie storiche al netto dei soli effetti di calendario.

Principali approcci alla destagionalizzazione

Generalmente, l’ipotesi sottostante alla costruzione di una procedura di destagionalizzazione è che ogni serie storica Ytosservata a cadenza infra-annuale (ove = 12, . . . , T è un indice temporale), sia esprimibile come una combinazione delle seguenti componenti non osservabili:

  1. una componente di trend Tt, che rappresenta la tendenza di medio-lungo periodo, talvolta denominata anche ciclo-trend (CTt);
  2. una componente stagionale St, costituita da oscillazioni di periodo annuale;
  3. una componente irregolare It, dovuta a movimenti erratici, cioè a fluttuazioni di breve periodo non sistematiche e non prevedibili.

Nell’ambito della produzione statistica ufficiale, gli approcci metodologici più diffusi alla destagionalizzazione sono essenzialmente i due, il cui impiego viene anche incoraggiato nelle linee guida europee sulla destagionalizzazione (Eurostat, 2015):

  1. Metodi di tipo Arima model based (AMB), sviluppati tra gli altri da Burman (1980), Box, Hillmer e Tiao (1978) e Hillmer e Tiao (1982), basati sull’ipotesi che esista un particolare modello statistico parametrico (Arima) in grado di descrivere adeguatamente la struttura probabilistica del processo stocastico generatore della serie storica osservata, essendo quest’ultima concepita come la parte finita di una particolare realizzazione di un processo stocastico. I filtri lineari utilizzati in questo approccio dipendono, conseguentemente, dalle caratteristiche della serie storica considerata. Questo tipo di approccio metodologico è adottato dalla procedura TRAMO-SEATS (Time series Regression with Arima noise, Missing observations and Outliers e Signal Extraction in Arima Time Series – TS), sviluppata da Gómez e Maravall (1996).
  2. Metodi filter based (FLB), di tipo non parametrico o semiparametrico, in cui, al contrario, la stima delle componenti avviene senza ipotizzare l’esistenza di un modello statistico rappresentante la serie analizzata ma mediante l’applicazione iterativa di una serie di filtri lineari costituiti da medie mobili centrate di diversa lunghezza. Tali procedure sono dette ad hoc, poiché i filtri adottati derivano da regole meramente empiriche piuttosto che dalla struttura probabilistica del processo stocastico che ha generato la serie. Appartengono a questo gruppo i classici metodi della famiglia X-11 (X11): dai primi X11 e X-11-ARIMA (X-11A), ai più attuali X-12-ARIMA (X-12A) (Findley et al., 1998) e X-13-ARIMA-SEATS (X-13AS) (Findley, 2005), che incorporano al loro interno numerosi miglioramenti rispetto alle precedenti versioni. Tra questi, il ricorso a modelli reg-Arima finalizzato al trattamento preliminare dei dati e a una migliore previsione della serie, che si traduce in un miglioramento dei filtri simmetrici a media mobile impiegati, e cioè, generalmente, in una maggiore stabilità dei fattori stagionali stimati.

In entrambe le metodologie è presente un trattamento preliminare dei dati, in cui avviene la scelta dello schema di scomposizione che lega le diverse componenti della serie storica (additiva, moltiplicativa, log-additiva, ecc.) e sono identificati ed eliminati una serie di effetti, quali i valori anomali (outlier) e quelli legati agli effetti di calendario. È su questa serie corretta preliminarmente che viene condotta la fase successiva che consente di ottenere la serie destagionalizzata (SA). A questa fase segue il reinserimento, nella serie SA, di alcuni elementi identificati nella fase di pretrattamento, attribuiti o al trend (come i cambiamenti di livello) o alla componente irregolare (ad es. gli outlier additivi e i cambiamenti temporanei); vengono invece esclusi dalla serie SA gli effetti di calendario e gli outlier stagionali.

Ti è stata utile questa pagina?

    Gli aggiornamenti di Istat ogni settimana