Home Forum Statistica con R Correlazione tra osservazioni e una variabile continua

This topic contains 10 replies and has 3 voices.

Viewing 11 posts - 1 through 11 (of 11 total)
  • Author
    Posts
  • #5428

    albpasc
    Participant

    Ciao, vorrei capire come fare un’analisi di correlazione del mio dataset costituito da delle osservazioni quantitative (che nel mio caso sono delle popolazioni microbiche risultanti da un’analisi metagenomica (OTU tables)) ed una variabile continua. Nel caso specifico mi interessa capire come variano queste popolazioni, per esempio al variare del pH.
    La mia idea era quella di utilizzare una correlazione di Spearman però non ho ancora ben chiaro come costruire le mie matrici e quale funzione di R utilizzare.
    Per altre analisi di correlazione ho la funzione corr.test di psych, ma per calcolare la co-occorrenza o la co-esclusione delle diverse osservazioni.

    Grazie in anticipo per un eventuale aiuto e suggerimento

    • This topic was modified 7 months, 2 weeks ago by  albpasc.
    • This topic was modified 7 months, 2 weeks ago by  albpasc.
    #5431

    pdeninis
    Participant

    La mia idea era quella di utilizzare una correlazione di Spearman

    Puoi spiegare perché non quella di Pearson? Perché una variabile è quantitativa (conteggi?) ? Hai informazioni sulla sua distribuzione (Poisson)?
    Hai pensato anche ad una regressione lineare popolazione.microbica ~ PH?

    La funzione cor.test(x,y, method=”spearman”, continuity=false) comunque dovrebbe essere quello che cerchi.

    • This reply was modified 7 months, 2 weeks ago by  pdeninis.
    • This reply was modified 7 months, 2 weeks ago by  pdeninis.
    #5434

    pdeninis
    Participant

    Io farei prima uno scatterplot delle due variabili.

    A seconda dell’esito puoi provare soluzioni diverse.
    La r di Pearson ti dirà forza e direzione di una componente lineare nell’associazione, se c’è. La rho di Spearman forza e direzione di una componente monotonica, anche se non lineare.
    Eventualmente potresti pensare ad una trasformazione. Se riesci a linearizzare accettabilmente la relazione, una regressione mi sembra interessante, atteso che ad occhio il PH sembrerebbe la variabile indipendente.

    • This reply was modified 7 months, 2 weeks ago by  pdeninis.
    • This reply was modified 7 months, 2 weeks ago by  pdeninis.
    #5437
    Davide Massidda
    Davide Massidda
    Moderator

    Come dice pdennis, la questione potrebbe essere approcciata in tanti modi diversi e la correlazione è solo uno di questi e sarebbe meglio non limitarsi a un unico punto di vista.

    In ogni caso, per rispondere alla domanda, l’analisi fra una variabile continua e una ordinale viene di solito effettuata utilizzando la correlazione poliseriale, ma a patto di avere a disposizione molti dati e che la variabile ordinale sia il frutto osservabile di un fenomeno che in realtà ha una natura continua.

    #5438

    albpasc
    Participant

    Grazie mille.

    Non uso Pearson proprio perché non mi aspetto relazione lineare.
    Avevo pensato comunque anche di testare la tesi con uno scatter plot, per vedere se esiste una regressione lineare…
    In ogni caso io ho calcolato già la correlazione con Spearman e scegliendo come metodo di probabilità per assegnazione del pvalue la Fisher Z ma con qiime (una pipeline di analisi metagenomica) però ottenuta questa tavola io vorrei anche rappresentare graficamente questi dati.

    Il mio output in ogni caso è di questo tipo:

    Feature ID Test stat. pval pval_fdr pval_bon
    p__Acidobacteria -0.880952381 0 0 0
    p__Bacteroidetes 0.761904762 0.01 0.503333333 1
    p__BHI80-139;c__ -0.845154255 0.03 0.549090909 1
    p__Bacteroidetes;c__Cytophagia 0.80952381 0.03 0.549090909 1
    p__NKB19;c__ -0.732588632 0.03 0.549090909 1
    p__OD1;c__Mb-NB09 -0.709208143 0.03 0.549090909 1

    Quindi il mio dubbio era se fare l’analisi completamente in R e magari vorrei un suggerimento da voi su come ottenere questo tipo di output e anche su come rappresentarlo graficamente.

    Grazie in anticipo!

    #5439

    albpasc
    Participant

    Perdonatemi… non vorrei bestemmiare… ma io avevo pensato anche forse ad un’analisi multivariata (PCA) non so ancora bene…magari rappresentando la mia variabile indipendente (continua) come una scala di colore dei diversi individui…
    cosa ne pensate?

    #5440

    pdeninis
    Participant

    Il mio consiglio è di fare prima tutti i grafici che ti servano a capire cosa dicono i tuoi dati e solo dopo di decidere le strategie da adottare. Di solito le soluzioni più logiche sono suggerite da una attenta osservazione dei dati.

    Perdonatemi… non vorrei bestemmiare… ma io avevo pensato anche forse ad un’analisi multivariata (PCA) non so ancora bene…

    Mi dispiace, io non ho capito granché dello studio che intendi fare. Sono rimasto alle 2 variabili della tua domanda iniziale (conteggi di popolazioni di microbi – credo di aver capito – e PH) e dunque non ho mezzi per indovinare quale analisi multivariata vorresti fare con quelle.

    La PCA (Analisi delle Componenti principali) è una tecnica di riduzione prodromica all’analisi vera e propria, necessaria quando vuoi rappresentare numerose variabili, di solito correlate, attraverso solo 2 o 3 componenti principali, ortogonali tra loro che le… riassumano (ne esprimano la maggior parte della varianza) e che siano interpretabili in modo sensato (utile al tuo studio). Dalla tua descrizione iniziale è difficile immaginare a cosa potrebbe servirti una PCA ma, sopratutto, è impossibile capire cosa vorresti concludere.

    Secondo alcuni, ed io sono tra questi, si può parlare di analisi multivariata quando le variabili dipendenti sono più di una. Nel tuo caso non hai fatto proprio riferimento ad un outcome.

    • This reply was modified 7 months, 2 weeks ago by  pdeninis.
    • This reply was modified 7 months, 2 weeks ago by  pdeninis.
    • This reply was modified 7 months, 2 weeks ago by  pdeninis.
    • This reply was modified 7 months, 2 weeks ago by  pdeninis.
    • This reply was modified 7 months, 2 weeks ago by  pdeninis.
    #5446

    albpasc
    Participant

    grazie della risposta pdeninis.
    perdonami è vero non mi sono spiegato bene… quando parlo di polpolazioni microbiche parlo di molteplici specie.. quindi il mio dataset è composto da circa 50.000 variabili dipendenti.
    Con la premessa che non sono un biostatistico e sono autodidatta…. mi permetto di dirti che questo in ecologia microbica è molto comune per cui per cui analisi multivariate e metodi di ordinazione sono i metodi statistici più utilizzati per la rappresentazione dei risutati…

    #5447

    pdeninis
    Participant

    Da nessuna a… 50.000!

    Ora sono troppe per le mie conoscenze. Magari legge qualcuno esperto del campo che può darti il suo parere…

    #5448
    Davide Massidda
    Davide Massidda
    Moderator

    Concordo con pdennis. Non è che sia sbagliato utilizzare la PCA, è che è proprio difficile capire se possa essere utile oppure no. Che cosa vorresti chiedere ai tuoi dati?

    #5449

    pdeninis
    Participant

    Trovato per caso… non so se può interessare.

    Link a tutorial su R per ecologisti:

    R Labs for Community Ecologists

    The materials and exercises currently available include:

    Introduction
    R for Ecologists, a primer on the S language and available software
    Familiarization with Data
    Lab 1 Loading Community Data and Simple Graphical Data Summaries
    Lab 2 Loading Site/Environment Data and Simple Graphical Summaries
    Lab 3 Vegetation Tables and Summaries
    Modeling Species Distributions
    Lab 4 Modeling Species Distributions with Generalized Linear Models
    Lab 5 Modeling Species Distributions with Generalized Additive Models
    Lab 6 Modeling Species Distributions with Classification Trees
    Ordination
    Lab 7 Principal Components Analysis
    Lab 8 Principal Coordinates Analysis
    Lab 9 Nonmetric Multi-Dimensional Scaling
    Lab 10 Correspondence Analysis and Detrended Corresponence Analysis
    Lab 11 Fuzzy Set Ordination
    Lab 12 Canonical Correspondence Analysis
    Cluster Analysis
    Lab 13 Cluster Analysis
    Lab 14 Discriminant Analysis with Tree Classifiers
    Miscellaneous Scripts of Potential Interest
    Scripts
    What About RStudio
    Best Practices Using RStudio

    • This reply was modified 7 months, 1 week ago by  pdeninis.
    • This reply was modified 7 months, 1 week ago by  pdeninis.
    • This reply was modified 7 months, 1 week ago by  pdeninis.
Viewing 11 posts - 1 through 11 (of 11 total)

You must be logged in to reply to this topic.