Tengo un registro telefónico muy largo como archivo de texto y he intentado leerlo en R, pero en realidad no funciona. El texto tiene una estructura, pero ciertamente no es una tabla. Su estructura es la siguienteCómo leo un archivo de texto en R cuando los datos no están en una tabla
- Cada registro se compone de varias líneas de modo readlines no es muy apropiado
- Cada línea de cada registro es un campo separado
- Algunos registros tienen un campo adicional después de que el segundo campo
- Cada nuevo registro se indica con una línea en blanco.
readLines
oscan
habría funcionado si se podría haber especificado que los registros fueron separados por "\ n \ n" y que los campos (o columnas) fueron separados por "\ n"
Aquí se muestra un ejemplo:
TheInstitute 5467
telephone line 4125526987 x 4567
datetime 2011110516 12:56
blay blay blah who knows what, but anyway it may have a comma
TheInstitute 5467
telephone line 4125526987 x 4567
datetime 2011110516 12:58
blay blay blah who knows what
TheInstitute 5467
telephone line 412552999 x 4999
bump phone line 4125527777
datetime 2011110516 12:59
blay blay blah who knows what
TheInstitute 5467
telephone line 4125526987 x 4567
bump phone line 4125527777
datetime 2011110516 13:51
blay blay blah who knows what, but anyway it may have a comma
TheInstitute 5467
telephone line 4125526987 x 4567
datetime 2011110516 14:56
blay blay blah who knows what
¿Cómo puedo hacer esto en R? He intentado trucos con escanear, pegar, strsplit pero estoy girando en círculos. Es posible que deba incluirlo en una lista, ya que puede manejar una cantidad no igual de elementos. Me gustaría obtener todos los registros para tener el mismo número de campos y para aquellos registros que no tienen un campo (aquí llamado bump phone) me gustaría que solo tengan una NA como valor en ese campo. Agradecería ayuda incluso para comenzar. Desde allí puedo jugar y jugar.
+1 Muy bonito ... – Andrie
... pero supongo que tiene que dividen además place' '' tline' y 'cline1' en sub columnas? – Tommy
Creo que la próxima tarea sería pasar los datos de "fecha y hora" y "líneas de respuesta", pero no creo que el interlocutor haya pedido analizar los comentarios. –