Correlazione tetracorica o indice di Pearson?

In un recente post abbiamo visto come misurare l’associazione tra due variabili dicotomiche utilizzando la correlazione tetracorica. Nonostante questo indice sia stato appositamente creato per verificare l’associazione tra due variabili dicotomiche, talvolta capita di vedere analisi statistiche che anche in questi casi fanno uso dell’indice di Pearson, la cui applicazione naturale è però su variabili continue. Si tratta forse di un errore? Non esattamente.

In realtà, utilizzare l’indice di Pearson su variabili dicotomiche non è poi così sbagliato. Difatti, l’indice di Pearson calcolato su variabili dicotomiche corrisponde al coefficiente di correlazione Phi, che, come la correlazione tetracorica, valuta l’associazione tra due variabili dicotomiche. La differenza tra l’indice Phi e la correlazione tetracorica è che Phi non assume che la dicotomia dei valori derivi dalla discretizzazione di una variabile che per natura sarebbe continua. Praticamente, a differenza della correlazione tetracorica, l’indice Phi tratta le variabili come dicotomiche “vere” e non come surrogato di una variabile continua.

La differenza tra indice di Pearson calcolato su variabili dicotomiche e correlazione tetracorica potrebbe sembrare un affare più speculativo che di sostanza, ma in realtà non è così: la performance nella stima della correlazione dei due indici è effettivamente diversa. Per capire meglio la differenza tra i due tipi di correlazione, ho impostato uno studio di simulazione prendendo spunto da una discussione apparsa qualche anno fa su Cross-Validated, ampliando un po’ il discorso.

Per confrontare la performance dei due indici ho utilizzato R per generare 1000 campioni di dati, sfruttando le funzioni per la generazione di numeri pseudocasuali. Per 1000 volte ho chiesto a R di generare due variabili casuali distribuite normalmente, x1 e x2, con 500 osservazioni ciascuna. Quindi, x1 e x2 sono state trasformate in punti z e dicotomizzate (come visto in questo post). Per ognuna delle 1000 iterazioni, ho calcolato:

  • L’indice di Pearson tra x1 e x2, che è la reale correlazione tra le due variabili.
  • L’indice di Pearson e la correlazione tetracorica tra le due variabili dicotomizzate; questi due indici costituiscono delle stime della reale correlazione tra x1 e x2.

Al termine della simulazione, ho creato un grafico dove ho posto in ascissa le 1000 correlazioni reali e in ordinata le rispettive stime della correlazione, contrassegnando con dei colori diversi le correlazioni di Pearson e quelle tetracoriche. La diagonale del grafico rappresenta la stima perfetta del valore di correlazione, e idealmente i valori dovrebbero disporsi su questa retta.

Ipotizzando che le due variabili siano degli item di un test psicometrico, ho impostato due possibili condizioni simulative. Nel primo caso, ho fatto in modo che il processo di dicotomizzazione portasse a due item di uguale difficoltà, facendo in modo che la probabilità di comparsa della categoria 1 fosse uguale per entrambe le variabili. Diversamente, nel secondo caso ho creato due item di difficoltà diversa, facendo in modo che la probabilità di comparsa dei valore 1 fosse diversa fra le due variabili.

Una nota: in questo piccolo studio di simulazione non sono state considerate correlazioni negative ma solo positive; si suppone comunque che i risultati possano essere estesi anche al caso di correlazioni negative, anche se per completezza il lavoro dovrebbe essere esteso.

Per quanto riguarda la condizione con item di pari difficoltà, in una simulazione ho utilizzato variabili con categorie equiprobabili (P(x=1) = 0.50), mentre in un’altra simulazione ho utilizzato variabili che rappresentavano degli item “difficili”, dove cioè è più probabile rispondere con 0 invece che con 1 (P(x=1) = 0.25). I risultati sono visualizzati nelle due figure sottostanti: a sinistra è riportato il grafico per il caso in cui gli item presentano categorie equiprobabili, mentre a destra è riportato il grafico per il caso con item “difficili”. I puntini rossi identificano le stime della correlazione effettuate con l’indice di Pearson, mentre i puntini azzurri le stime effettuate utilizzando la correlazione tetracorica. I punti sono stati interpolati tramite una funzione di lisciamento.

Correlazione tetracorica vs correlazione di Pearson)

In entrambi i casi, la stima effettuata dalla correlazione tetracorica appare decisamente più affidabile rispetto alla correlazione di Pearson, infattti queste stime si posizionano nei pressi della diagonale, che costituisce lo standard ideale. Diversamente, l’indice di Pearson tende a sottostimare l’entità della correlazione, e questa sottostima si accentua al crescere della correlazione: più è forte l’associazione tra le due variabili, più tale associazione viene sottostimata. I due grafici appaiono molto simili: apparentemente non c’è una grossa differenza tra le due condizioni.

Anche per il caso di item con difficoltà diverse, sono state considerate due possibili condizioni. In una prima simulazione ho ipotizzato una differenza di difficoltà fra i due item relativamente bassa, con una probabilità di successo per x1 pari a 0.50 e per x2 pari a 0.25. In un secondo caso ho esasperato tale differenza, portando la probabilità di successo per x1 a 0.75 e tenendo costante a 0.25 tale probabilità per x2. I risultati sono visualizzati nelle figure sottostanti.

Correlazione tetracorica vs correlazione di Pearson)

In entrambi i casi, si osserva che la correlazione tetracorica appare affidabile anche nel caso in cui gli item presentano difficoltà diverse, mentre l’indice di Pearson tende a sottostimare clamorosamente la correlazione, più di quanto già non succedeva con item di uguale difficoltà. Non solo: all’aumentare della distanza tra le difficoltà degli item (grafico di destra), la stima effettuata dall’indice di Pearson peggiora. Si tenga conto che correlazioni dallo 0.4 in su vengono sistematicamente sottostimate.

In conclusione, possiamo dire che l’indice di Pearson tende a sottostimare la reale entità della correlazione, problema che invece non si presenta se si utilizza la correlazione tetracorica. Questo è vero soprattutto se una delle due variabili presenta un livello di difficoltà diverso rispetto all’altra. La criticità della correlazione di Pearson calcolata su variabili dicotomiche si manifesta in maniera molto marcata se i due item presentano difficoltà diametralmente opposte, ovvero se le categorie di risposta delle due variabili hanno probabilità di occorrenza molto diverse l’una dall’altra.

L’uso della correlazione di Pearson su variabili dicotomiche resta comunque valida per dati che rappresentano una reale dicotomia tra due categorie e non una semplice discretizzazione di variabili continue.

Questi risultati hanno una ricaduta importante anche su tutte le tecniche di analisi dei dati che si basano sull’uso di matrici di correlazione, come l’analisi in componenti principali o l’analisi fattoriale. Tali tecniche vengono applicate con lo scopo di raggruppare delle variabili, spesso item di un questionario, sulla base della loro correlazione. Dato un gruppo di item dicotomici, che si ipotizza derivino dalla discretizzazione di variabili in realtà continue, utilizzando l’indice di Pearson si rischierebbe di sottostimare l’importanza di certe relazioni. La correlazione tra due item magari molto legati, ma di difficoltà molto diversa, sarebbe misconosciuta.

Intervistato sull’argomento, il prof. William Revelle – noto docente di psicometria nonché autore della libraria per R psych – spiega che l’uso inopportuno della correlazione di Pearson potrebbe addirittura condurre alla paradossale situazione in cui un’analisi fattoriale individua delle dimensioni che raggruppano gli item non sulla base di reali correlazioni, ma sulla base della loro difficoltà. Ovvero, se il sottostante processo che ha generato i dati è unidimensionale, ma la sua discretizzazione produce due categorie che differiscono molto nella loro frequenza di comparsa, allora i risultati di un’analisi fattoriale condotta sulla matrice di correlazioni di Pearson suggeriranno che gli item più facili costituiscono un fattore e quelli più difficili un altro fattore, e questi fattori saranno correlati. Diversamente, rispetto all’indice di Pearson, la correlazione tetracorica non è influenzata dalla difficoltà degli item. È quindi necessario riflettere molto attentamente sulla natura delle variabili in gioco facendo in modo che siano fondate riflessioni teoriche a guidare l’analisi.

Di seguito è riportato il codice R utilizzato per realizzare le simulazioni. Per manipolare i parametri della simulazione bisogna modificare n (la numerosità campionaria), hitProb (la probabilità di successo rispettivamente di x1 e x2) e iter (il numero di iterazioni).


library(psych)
# Settings
n <- 500 hitProb <- c(0.75,0.25) iter <- 1000 # Simulation set.seed(27) z1 <- qnorm(1-hitProb[1]) z2 <- qnorm(1-hitProb[2]) index <- matrix(NA,nrow=iter,ncol=3) colnames(index) <- c("true","pearson","tetra") for(i in 1:iter) { s <- runif(1,0.5,4.5) x1 <- rnorm(n) x2 <- x1+rnorm(n,sd=s) x1z <- (x1-mean(x1))/sd(x1) x2z <- (x2-mean(x2))/sd(x2) x1d <- as.numeric(x1z > z1)
x2d <- as.numeric(x2z > z2)
index[i,1] <- cor(x1z,x2z) index[i,2] <- cor(x1d,x2d) index[i,3] <- tetrachoric(cbind(x1d,x2d))$rho[2,1] } # Graph lim <- c(-0.15,1) col <- c(pearson=”#af0000″,tetrac=”#0c5d87″) plot(index[,1],index[,2],xlim=lim,ylim=lim,col=col[1], xlab=”True correlation”,ylab=”Observed correlation”) points(index[,1],index[,3], col=col[2]) lines(lowess(index[,1],index[,2]),col=col[1],lwd=2) lines(lowess(index[,1],index[,3]),col=col[2],lwd=2) abline(0,1,lty=2) legend(“topleft”, c(“Pearson (0/1)”,”Tetrachoric”),col=col,lty=1,lwd=2,bty=”n”) [/code]

Print Friendly

2 Commenti per “Correlazione tetracorica o indice di Pearson?

  1. Pingback: InsulaR

  2. Pingback: Correlazione tetracorica e numerosità campionaria | InsulaR

Lascia un Commento