Home Forum Statistica con R Overfitting

This topic contains 1 reply and has 2 voices.

Viewing 2 posts - 1 through 2 (of 2 total)
  • Author
    Posts
  • #5233

    carla
    Participant

    Buongiorno a tutti,

    chiedo il vostro aiuto per una questione forse banale. Su una piccolissima serie di dati (6 osservazioni) ho generato diversi modelli di regressione lineare, dal lineare semplice al polinomiale di 3° grado. Ad occhio, mi sembra che il migliore sia il modello lineare semplice (R=94%; p=0.005). Tuttavia, il modello polinomiale di 3° grado, seppur interpoli quasi alla perfezione i dati ed abbia un R del 98%, ha un p=0.02.
    Mi chiedo: il fatto che il p-value del polinomiale sia più grande può essere dovuto al fatto che si tratta di un modello troppo complesso per i miei pochissimi dati (quindi magari sono in una situazione di overfitting e le stime di R e p-value non sono verosimili)?
    Grazie in anticipo a chi risponderà!

    Riporto i dati del mio modello:
    y<- c(6.497, 6.938,7.556, 8.338, 9.762)
    x<- c(25,35,45,55,65)

    #5234
    Davide Massidda
    Davide Massidda
    Moderator

    Ciao, secondo me, la dimensione del p-value non ti fornisce nessuna informazione rispetto a un eventuale problema di overfitting. Non è certo il p-value che devi guardare per capire se stai creando un modello poco generalizzabile.

    Il problema è di buon senso: in generale, sei osservazioni non sono rappresentative di nulla. Questo non significa che tu non possa usare un modello polinomiale, dipende molto da quali sono i tuoi obiettivi, ma con sole sei osservazioni non mi spingerei molto nell’inferenza statistica… anzi, io non farei manco la regressione: mi accontenterei di un grafico.

    #Edit
    Ho visualizzato i dati e, onestamente, se proprio proprio volessi adattare un modello polinomiale, mi fermerei al secondo grado, che mi pare un modello verosimile.

Viewing 2 posts - 1 through 2 (of 2 total)

You must be logged in to reply to this topic.