Correlazione tetracorica e numerosità campionaria

In due precedenti articoli, abbiamo visto come utilizzare la correlazione tetracorica per misurare l’associazione tra due variabili dicotomiche ordinali (qui), e abbiamo confrontato questo indice con la correlazione di Pearson (qui). Rispetto all’indice di Pearson, la correlazione tetracorica non sembra essere influenzata dalla “difficoltà degli item”, ovvero dalla probabilità di comparsa delle due modalità che le variabili possono assumere. Infatti, quando le due variabili sotto esame differiscono molto nella probabilità di comparsa delle due categorie, l’indice di Pearson tende a sottostimare gravemente l’entità della correlazione, più di quanto già non accada nel caso in cui tale probabilità sia analoga.

Per studiare la performance della correlazione tetracorica, ne avevo valutato il comportamento impostando uno studio di simulazione. Nelle simulazioni avevo considerato variabili con 500 osservazioni ciascuna: la funzione di R che avevo adottato per stimare coefficiente di correlazione tetracorica si avvale infatti del criterio della massima verosimiglianza, il quale necessita di dimensioni campionarie abbastanza elevate.

La numerosità campionaria utilizzata nella precedente simulazione appare però decisamente irrealistica in molti contesti di ricerca. Ho quindi ripetuto la stessa simulazione alterando la numerosità campionaria, che è stata ridotta a 50 unit&agrave (il codice R utilizzato è riportato alla fine del post).

Fra i vari casi che avevo esaminato precedentemente, ora ne ho considerati solo due: un caso con item di uguale difficoltà, in cui la probabilità di successo è pari a P = 0.50 per entrambe le variabili, e un caso in cui i due item presentano difficoltà diverse, con una probabilità di successo pari a P = 0.75 per la prima e P = 0.25 per la seconda. I risultati sono riportati nella figura sottostante; per i dettagli su come leggere la figura si rimanda al post precedente.

Correlazione tetracorica vs. indice di Pearson

Quando la probabilità di comparsa delle due modalità è omogenea fra le variabili (grafico di sinistra), i risultati sono analoghi alla simulazione descritta nel precedente articolo, in cui la numerosità campionaria era elevata.

Diversamente, quando le due variabili presentano “difficoltà” opposte (grafico di destra), anche la correlazione tetracorica inizia a evidenziare una tendenza a sottostimare le correlazioni più elevate. L’entità della sottostima non è grave come per l’indice di Pearson, ma comunque non è trascurabile. In alcuni casi, la correlazione tetracorica presenta una tendenza a stimare con valori negativi delle correlazioni che in realtà sono pressocchè nulle, e questi valori in alcuni casi si avvicinano anche a -0.5: si tratta di stime anomale la cui origine andrebbe approfondita.

Quindi, quando si lavora con numerosità campionarie contenute, anche con la correlazione tetracorica si può presentare un problema di sottostima dell’entità della relazione tra le variabili; tutto sommato, comunque, quest’indice sembra reggere meglio rispetto all’indice di Pearson.


library(psych)
# Settings
n <- 50 hitProb <- c(0.5,0.5) # c(0.75,0.25) iter <- 1000 # Simulation set.seed(27) z1 <- qnorm(1-hitProb[1]) z2 <- qnorm(1-hitProb[2]) index <- matrix(NA,nrow=iter,ncol=3) colnames(index) <- c("true","pearson","tetra") for(i in 1:iter) { s <- runif(1,0.5,4.5) x1 <- rnorm(n) x2 <- x1+rnorm(n,sd=s) x1z <- (x1-mean(x1))/sd(x1) x2z <- (x2-mean(x2))/sd(x2) x1d <- as.numeric(x1z > z1)
x2d <- as.numeric(x2z > z2)
index[i,1] <- cor(x1z,x2z) index[i,2] <- cor(x1d,x2d) index[i,3] <- tetrachoric(cbind(x1d,x2d))$rho[2,1] } # Graph lim <- c(-0.6,1) col <- c(pearson=”#af0000″,tetrac=”#0c5d87″) plot(index[,1],index[,2],xlim=lim,ylim=lim,col=col[1], xlab=”True correlation”,ylab=”Observed correlation”) points(index[,1],index[,3], col=col[2]) lines(lowess(index[,1],index[,2]),col=col[1],lwd=2) lines(lowess(index[,1],index[,3]),col=col[2],lwd=2) abline(0,1,lty=2) legend(“topleft”, c(“Pearson (0/1)”,”Tetrachoric”),col=col,lty=1,lwd=2,bty=”n”) [/code]

Print Friendly

Lascia un Commento