2011-08-19 19 views
10

Tengo un pequeño panel N grande T que estoy estimando a través de plm (modelo de regresión lineal de panel), con efectos fijos.¿Hay una función de predicción para PLM en R?

¿Hay alguna forma de obtener valores pronosticados para un nuevo conjunto de datos? (Quiero estimar parámetros en un subconjunto de mi muestra, y luego usarlos para calcular los valores implícitos en el modelo para toda la muestra).

Gracias!

+0

Parece que está usando 'lm' debajo del capó, ¿has intentado llamar a' prediction.lm'? – James

+2

Sospecho que los autores saben que liberar una función 'predict.plm' alentaría a las personas que no entienden los problemas estadísticos a aplicarlo ciegamente cuando no se cumplan las suposiciones. IIRC, el paquete lme4 tampoco proporciona una función de predicción y los autores de la nota mencionan que están estimando componentes aleatorios y fijos. –

+0

predict.lm no funciona. Supongo que hay una manera de extraer los coeficientes y las interceptaciones, pero me imagino que otros ya se han encontrado con este problema –

Respuesta

7

Hay (al menos) dos métodos en el paquete para producir estimaciones de objetos PLM:

- fixef.plm: extracto de los efectos fijos

- pmodel.response: Una función para extraer el modelo.response

Me parece que el autor (es) no está interesado en proporcionar estimaciones para los "efectos aleatorios". Puede ser una cuestión de "si no sabes cómo hacerlo por tu cuenta, entonces no queremos darte un cuchillo afilado para cortarte demasiado profundamente".

2

I escribió una función llamada predict.out.plm que puede crear predicciones para los datos originales y para un conjunto de datos manipulada (con nombres iguales columna).

El predict.out.plm calcula a) el resultado pronosticado (ajustado) de los datos transformados yb) construye el resultado según el nivel. La función funciona para estimaciones de primera diferencia (FD) y estimaciones de efectos fijos (FE) usando plm. Para FD crea el resultado diferenciado a lo largo del tiempo y para FE crea el resultado degradado en el tiempo.

La función no se ha probado en gran medida, y probablemente solo funcione con cuadros de datos fuertemente balanceados.

Cualquier sugerencia y corrección son bienvenidas. La ayuda para desarrollar un pequeño paquete R sería muy apreciada.

La función predict.out.plm

predict.out.plm<-function(
    estimate, 
    formula, 
    data, 
    model="fd", 
    pname="y", 
    pindex=NULL, 
    levelconstr=T 
){ 
    # estimate=e.fe 
    # formula=f 
    # data=d 
    # model="within" 
    # pname="y" 
    # pindex=NULL 
    # levelconstr=T 
    #get index of panel data 
    if (is.null(pindex) && class(data)[1]=="pdata.frame") { 
    pindex<-names(attributes(data)$index) 
    } else { 
    pindex<-names(data)[1:2] 
    } 
    if (class(data)[1]!="pdata.frame") { 
    data<-pdata.frame(data) 
    } 
    #model frame 
    mf<-model.frame(formula,data=data) 
    #model matrix - transformed data 
    mn<-model.matrix(formula,mf,model) 

    #define variable names 
    y.t.hat<-paste0(pname,".t.hat") 
    y.l.hat<-paste0(pname,".l.hat") 
    y.l<-names(mf)[1] 

    #transformed data of explanatory variables 
    #exclude variables that were droped in estimation 
    n<-names(estimate$aliased[estimate$aliased==F]) 
    i<-match(n,colnames(mn)) 
    X<-mn[,i] 

    #predict transformed outcome with X * beta 
    # p<- X %*% coef(estimate) 
    p<-crossprod(t(X),coef(estimate)) 
    colnames(p)<-y.t.hat 

    if (levelconstr==T){ 
    #old dataset with original outcome 
    od<-data.frame(
     attributes(mf)$index, 
     data.frame(mf)[,1] 
    ) 
    rownames(od)<-rownames(mf) #preserve row names from model.frame 
    names(od)[3]<-y.l 

    #merge old dataset with prediciton 
    nd<-merge(
     od, 
     p, 
     by="row.names", 
     all.x=T, 
     sort=F 
    ) 
    nd$Row.names<-as.integer(nd$Row.names) 
    nd<-nd[order(nd$Row.names),] 

    #construct predicted level outcome for FD estiamtions 
    if (model=="fd"){ 
     #first observation from real data 
     i<-which(is.na(nd[,y.t.hat])) 
     nd[i,y.l.hat]<-NA 
     nd[i,y.l.hat]<-nd[i,y.l] 
     #fill values over all years 
     ylist<-unique(nd[,pindex[2]])[-1] 
     ylist<-as.integer(as.character(ylist)) 
     for (y in ylist){ 
     nd[nd[,pindex[2]]==y,y.l.hat]<- 
      nd[nd[,pindex[2]]==(y-1),y.l.hat] + 
      nd[nd[,pindex[2]]==y,y.t.hat] 
     } 
    } 
    if (model=="within"){ 
     #group means of outcome 
     gm<-aggregate(nd[, pname], list(nd[,pindex[1]]), mean) 
     gl<-aggregate(nd[, pname], list(nd[,pindex[1]]), length) 
     nd<-cbind(nd,groupmeans=rep(gm$x,gl$x)) 
     #predicted values + group means 
     nd[,y.l.hat]<-nd[,y.t.hat] + nd[,"groupmeans"] 
    } 
    if (model!="fd" && model!="within") { 
     stop('funciton works only for FD and FE estimations') 
    } 
    } 
    #results 
    results<-p 
    if (levelconstr==T){ 
    results<-list(results,nd) 
    names(results)<-c("p","df") 
    } 
    return(results) 
} 

Prueba de la función:

##packages 
library(plm) 

##test dataframe 
#data structure 
N<-4 
G<-2 
M<-5 
d<-data.frame(
    id=rep(1:N,each=M), 
    year=rep(1:M,N)+2000, 
    gid=rep(1:G,each=M*2) 
) 
#explanatory variable 
d[,"x"]=runif(N*M,0,1) 
#outcome 
d[,"y"] = 2 * d[,"x"] + runif(N*M,0,1) 
#panel data frame 
d<-pdata.frame(d,index=c("id","year")) 

##new data frame for out of sample prediction 
dn<-d 
dn$x<-rnorm(nrow(dn),0,2) 

##estimate 
#formula 
f<- pFormula(y ~ x + factor(year)) 
#fixed effects or first difffernce estimation 
e<-plm(f,data=d,model="within",index=c("id","year")) 
e<-plm(f,data=d,model="fd",index=c("id","year")) 
summary(e) 

##fitted values of estimation 
#transformed outcome prediction 
predict(e) 
c(pmodel.response(e)-residuals(e)) 
predict.out.plm(e,f,d,"fd")$p 
# "level" outcome prediciton 
predict.out.plm(e,f,d,"fd")$df$y.l.hat 
#both 
predict.out.plm(e,f,d,"fd") 

##out of sampel prediciton 
predict(e,newdata=d) 
predict(e,newdata=dn) 
# Error in crossprod(beta, t(X)) : non-conformable arguments 
# if plm omits variables specified in the formula (e.g. one year in factor(year)) 
# it tries to multiply two matrices with different length of columns than regressors 
# the new funciton avoids this and therefore is able to do out of sample predicitons 
predict.out.plm(e,f,dn,"fd") 
Cuestiones relacionadas