Tengo un hoja.de.datos (link to file) con 18 columnas y 11520 filas que transformo como esto:la forma de acelerar el código R
library(plyr)
df.median<-ddply(data, .(groupname,starttime,fPhase,fCycle),
numcolwise(median), na.rm=TRUE)
según system.time(), que toma alrededor de este long to run:
user system elapsed
5.16 0.00 5.17
Esta llamada es parte de una aplicación web, por lo que el tiempo de ejecución es bastante importante. ¿Hay alguna manera de acelerar esta llamada?
¿Puede cachear los resultados? – Shane
'ddply()' es antes que nada * conveniente *. Si necesita algo rápido, puede que necesite volver a implementar la lógica. –
@Shane: actualmente hay 3 * 400 conjuntos de datos posibles (y aumentados diariamente) que un usuario podría solicitar. Es poco probable que un usuario acierte en el mismo conjunto de datos que otro. Entonces el almacenamiento en caché solo sería útil dentro de una sesión. Como el resultado de la aplicación web es esencialmente un informe enlatado, no creo que el usuario lo solicite más de una vez. ¿Implementarías el almacenamiento en caché para la situación que he descrito? Nunca lo había hecho antes, así que estoy un poco perdido. – dnagirl