2012-10-12 61 views
6

No entiendo muy bien qué significa el valor p en esta salida. No me refiero a los valores p como tales, pero en este caso.Comparando dos modelos lineales con anova() en R

> Model 1: sl ~ le + ky 
> Model 2: sl ~ le 
    Res.Df  RSS Df Sum of Sq  F Pr(>F) 
1  97 0.51113        
2  98 0.51211 -1 -0.00097796 0.1856 0.6676 

Me sale algo así, y ahora me pregunto qué modelo es el que mejor se adapta. Como solo hay UNO y no DOS valores P me estoy confundiendo. Puedo obtener diferentes pvalues ​​utilizando resumen (model1) o resumen (model2)

Ahora bien, si

> fm2<-lm(Y~X+T) 

(t ser mi indicador variable) y

> fm4<-lm(Y~X) 

si hago

> anova(fm2,fm4) 

esto prueba la hipótesis nula H0: alpha1==alpha2 (Ha: alpha1!=alpha2) c (alfa ser mi origen) Así se comprueba si es mejor tener uno de intercepción (=>alpha1==alpha2), o dos intercepciones (alpha1!=alpha2)

En este caso estaríamos ahora, obviamente, rechazar la hipótesis nula, como el valor p es 0.6676.

Esto significa que deberíamos seguir con el modelo fm4, ya que es más apropiado para nuestros datos.

¿Saqué las conclusiones, correcto? Intenté hacerlo lo mejor posible, pero no estoy seguro de qué significa el valor p. Como solo hay, esto es lo que pensé que podría significar. ¿Alguien puede aclarar las cosas?

Respuesta

5

¿Quiere decir "sería no obviamente rechazar la hipótesis nula" (en lugar de "ahora obviamente rechazar")? Eso parece tener más sentido dado el resto de su pregunta.

Hay solo un valor p porque hay dos modelos para comparar, de ahí una comparación única (hipótesis nula versus alternativa, o realmente en este caso hipótesis nula versus alternativa no especificada). Suena de lo que has dicho más arriba como si le es un continuo y ky es un predictor categórico, en cuyo caso estás comparando un modelo con una pendiente y una intersección contra (como dijiste) un modelo con una sola pendiente y dos intersecciones . Debido a que el valor de p es relativamente grande, eso significa que los datos no proporcionan evidencia de un efecto aditivo de ky. El modelo más simple generalmente sería más apropiado (aunque tenga cuidado con esta conclusión, ya que los valores p se construyen para probar hipótesis, no para elegir entre modelos).

Los p-values ​​que obtienes para summary() de cada modelo individual son los p-values ​​para los efectos de cada uno de los parámetros en cada modelo, condicionados a todos los otros parámetros en ese modelo. Si sus datos están perfectamente equilibrados (lo que es poco probable en un diseño de regresión), debe obtener las mismas respuestas de summary y anova, pero de lo contrario los resultados de anova son generalmente preferibles.

Esta pregunta es probablemente más apropiado para http://stats.stackexchange.com, ya que es realmente acerca de la interpretación estadística en lugar de la programación ...

Cuestiones relacionadas