Pido disculpas por adelantado si tiene una respuesta simple en alguna parte. Parece que es el tipo de cosa que lo haría, pero parece que no puedo encontrarlo en los archivos de ayuda, al buscar SO, o al buscar en Google.Lectura solo en una parte de un archivo Stata .DTA en R
Estoy trabajando con algunos conjuntos de datos que son varios GB en este momento. Es suficiente para caber en la memoria en uno de los nodos del clúster al que tengo acceso, pero lleva bastante tiempo cargarlo. Para muchas actividades de depuración/programación con estos datos, no necesito cargar todo el archivo, solo los primeros miles de observaciones que tienen un conjunto de datos para probar el código. Por supuesto, puedo leer todo el archivo en un subconjunto, pero me preguntaba si hay una forma de decirle a read.dta()
que solo lea en las primeras N filas. Esto, por supuesto, sería mucho más rápido.
También podría usar un formato adecuado como .csv y luego usar read.csv()
en el argumento nrows, pero luego perdería las etiquetas de factores en el conjunto de datos Stata (y tendría que recrear bastantes GB de datos de otra persona código que se está incorporando a este proyecto. Por lo tanto, se prefiere una solución directa en archivos .dta
que valdría la pena señalar que su Stata-using-colega en la dirección de la función 'outsheet' para exportar a CSV. Un poco tarde para este proyecto, tal vez, pero podría hacerlo más fácil la próxima vez que trabajen juntos. http://www.ats.ucla.edu/stat/stata/faq/outsheet.htm –