Solo pochi attimi di attesa

Posizione corrente:

Ti trovi in: Home » Preparazione scolastica e universitaria » Gioca con MOV » Soluzione #7: il paradosso di Simpson

Soluzione #7: il paradosso di Simpson

Relazioni che si invertono e variabili latenti: il paradosso di Simpson

Per rivedere il testo del problema clicca qui. Su MOV, nelle nostre videolezioni, abbiamo discusso tutti gli strumenti necessari a risolvere il quesito. In particolare, si tratta di una relazione statistica tra variabili qualitative, caratterizzata dal paradosso di Simpson. Ovvero, dall’inversione del segno nel passaggio da un campione a due sotto-campioni.

                   Videolezioni                    Relazioni statistiche

LA SOLUZIONE IN SINTESI

Gioca con MOV - La relazione invertita - fumetto1 - Paradosso di SimpsonGioca con MOV - La relazione invertita - fumetto2 - Paradosso di SimpsonGioca con MOV - La relazione invertita - fumetto3 - Paradosso di SimpsonGioca con MOV - La relazione invertita - fumetto4 - Paradosso di Simpson

LA SOLUZIONE IN DETTAGLIO

Sull’affidabilità di una relazione statistica

Molti manuali, trattando di relazioni statistiche tra variabili, evidenziano alcuni problemi che possono minare l’affidabilità della relazione. Ne abbiamo discusso anche noi, nelle videolezioni. Ad esempio, la presenza di outliers o di non linearità può distorcere la correlazione lineare. Oppure l’associazione spuria affievolisce il nesso di causalità che si vorrebbe attribuire alla relazione. Un’altra criticità è nota come paradosso di Simpson. La denominazione inganna, perché il fenomeno che descrive non ha nulla di paradossale. Si verifica quando la relazione tra due variabili, stimata su un campione, si inverte (anche più volte) nei sotto-campioni. Allora l’interpretazione della relazione non è più univoca, ma dipende dal livello di aggregazione dei dati che si ritiene più opportuno, non sempre ovvio e incontestabile. Spesso, dietro un paradosso di Simpson c’è una variabile terza, che pur non essendo esplicitata, impatta sulle variabili della relazione. Se il campione è sufficientemente omogeneo rispetto alla variabile latente, l’effetto distorsivo viene anestetizzato. Se non è così – se cioè la variabile non è ben bilanciata nel campione – si può verificare l’inversione.

L’inversione della relazione nel problema di Dudy e Susy

Nel problema di Dudy e Susy, la relazione tra titolo di studio e carriera – variabili binarie, cioè con due sole modalità – sembra essere “negativa”. Ad un titolo di studio più alto pare associarsi più facilmente una carriera meno prestigiosa. Sul segno della relazione però impatta la variabile età, che non ha una distribuzione omogenea rispetto al titolo di studio. Infatti, quasi tutti i laureati sono “giovani” mentre quasi tutti i non laureati sono “vecchi”. Poiché l’età ha un effetto positivo sulla carriera – a prescindere dal titolo di studio – la presenza tra i laureati di tanti giovani abbassa la percentuale di dirigenti. Di contro, la stessa percentuale si alza tra i  non laureati, per la presenza di tanti vecchi. Quando il campione viene scisso per fasce d’età, l’effetto della variabile latente sparisce. Così nei due sotto-campioni la relazione diventa “positiva”, invertendosi. Nel caso in questione, è ragionevole depurare la relazione dall’effetto-età, assumendo come affidabile il segno positivo tra le variabili osservate.

Soluzione del problema: il paradosso di Simpson

L’intuizione di Movy consiste nello sfruttare le informazioni nella nota sulla composizione del campione (v. figura 3 nel testo del problema) per scinderlo per fasce d’età. Movy infatti sa che l’età impatta sulla carriera e sospetta che chi ha formato il campione non ne abbia tenuto conto. Il primo passo è ricavare le frequenze marginali dalla distribuzione doppia di frequenza in possesso di Dudy e Susy.

Distribuzione di frequenza

La relazione nel gruppo dei vecchi

Applicando le quattro informazioni della nota, si ottengono le frequenze riportate in figura 1 e riferite al sotto-campione dei vecchi. Da qui, per sottrazione, si completa la tabella in figura 2. A questo punto è immediato osservare l’inversione della relazione. 130 laureati su 140, cioè il 92,9%, sono dirigenti, mentre la percentuale, tra i non laureati, scende a 680/860 = 79,1%. Dunque, tra i vecchi, laurearsi aumenta la probabilità di fare carriera.

La relazione nel gruppo dei giovani

Sottraendo cella per cella la tabella dei vecchi da quella relativa all’intero campione, si ottiene la distribuzione di frequenza riferita al sotto-campione dei giovani (figura 3). Anche qui, la relazione tra titolo di studio e carriera si è invertita. 155 laureati su 785, cioè il 19,7%, sono dirigenti, percentuale che scende al 16,3% (35 su 215) tra i non laureati. Anche tra i giovani, quindi, laurearsi aumenta la probabilità di fare carriera.

Il paradosso di Simpson

Siamo dunque in presenza di un paradosso di Simpson. La genesi del fenomeno è stata già descritta. Nell’intero campione la relazione è negativa perché tra i laureati, ben 785 su 925 (l’84,8%) sono giovani, che tendono a non aver fatto carriera per un fatto anagrafico, non perché penalizzati dal titolo superiore. Tra i non laureati, ben 860 su 1075 (l’80%) sono vecchi, che tendono ad aver già fatto carriera per questioni di esperienza professionale ed automatismi tecnico-legali, non certo per il titolo di studio inferiore. E’ dunque la variabile nascosta, l’età, a spingere in alto la percentuale di dirigenti tra i non laureati ed a spingerla in basso tra i laureati.

PROBLEMA #6  —  SOLUZIONE #6


Vuoi preparare un esame di Statistica con MOV? Clicca sul pulsante Cosa devi studiare?, riempi il form ed inviaci il tuo programma: ti suggeriremo un piano di studio basato sui nostri strumenti didattici e calibrato sulle tue esigenze.

Cosa devi studiare?

Scopri di cosa parliamo

Neque porro quisquam est, qui dolorem ipsum quia dolor sit amet, consectetur, adipisci velit, sed quia non numquam eius modi tempora incidunt ut labore et dolore magnam aliquam keywords.