que tengo un conjunto de datos con cerca de 3 millones de filas y la siguiente estructura:La forma más rápida para formar de nuevo los valores de variables como columnas
PatientID| Year | PrimaryConditionGroup
---------------------------------------
1 | Y1 | TRAUMA
1 | Y1 | PREGNANCY
2 | Y2 | SEIZURE
3 | Y1 | TRAUMA
ser bastante nuevo en R, tengo algunos problemas para encontrar el camino correcto para formar de nuevo los datos en la estructura detalla a continuación:
PatientID| Year | TRAUMA | PREGNANCY | SEIZURE
----------------------------------------------
1 | Y1 | 1 | 1 | 0
2 | Y2 | 0 | 0 | 1
3 | Y1 | 1 | 0 | 1
Mi pregunta es: ¿Cuál es la manera más rápida/más elegante para crear un hoja.de.datos, donde los valores de PrimaryConditionGroup se convierten en columnas, agrupados por PatientID y año (contando el número de ocurrencias)?
+1 'ddply' no será mucho menos tipeo, en realidad, y por supuesto será mucho más lento. – joran
¿Por qué siquiera consideraría ddply para este problema? – hadley
Hola Josh, gracias, esto funciona como se espera y funciona muy bien. ¿Cuál sería la forma más concisa/idiomática de reformar los datos? (Si el rendimiento no era una preocupación) – Matt