¿Es posible usar read_csv para leer solo líneas específicas?

Tengo un archivo csv que tiene este aspecto:¿Es posible usar read_csv para leer solo líneas específicas?

TEST 
2012-05-01 00:00:00.203 ON 1 
2012-05-01 00:00:11.203 OFF 0 
2012-05-01 00:00:22.203 ON 1 
2012-05-01 00:00:33.203 OFF 0 
2012-05-01 00:00:44.203 OFF 0 
TEST 
2012-05-02 00:00:00.203 OFF 0 
2012-05-02 00:00:11.203 OFF 0 
2012-05-02 00:00:22.203 OFF 0 
2012-05-02 00:00:33.203 OFF 0 
2012-05-02 00:00:44.203 ON 1 
2012-05-02 00:00:55.203 OFF 0

y no puede deshacerse de la cadena "TEST".

¿Es posible verificar si una línea comienza con una fecha y solo leer las que sí la tienen?

Fuente

2012-05-23 user1412286

from cStringIO import StringIO 
import pandas 

s = StringIO() 
with open('file.csv') as f: 
    for line in f: 
     if not line.startswith('TEST'): 
      s.write(line) 
s.seek(0) # "rewind" to the beginning of the StringIO object 

pandas.read_csv(s) # with further parameters…

Fuente

2012-05-23 10:23:48 eumiro

¡Gracias! Esto funciona. – user1412286

Al obtener el row del csv.reader, y cuando se puede estar seguro de que el primer elemento es una cadena, entonces usted puede utilizar

if not row[0].startswith('TEST'): 
    process(row)

Fuente

2012-05-23 10:10:06 pepr

http://pandas.pydata.org/pandas-docs/stable/generated/pandas.io.parsers.read_csv.html?highlight=read_csv#pandas.io.parsers.read_csv

skiprows: lista como o número entero Números de fila para omitir (0-indexados) o número de filas para omitir (int)

Pase [0, 6] para saltear filas con "TEST".

Fuente

2012-05-23 10:17:15

Me temo que él sabe cómo se ven esas líneas, no sus índices. – eumiro

Otra opción, ya que me acabo de encontrar con este problema también:

import pandas as pd 
import subprocess 
grep = subprocess.check_output(['grep', '-n', '^TITLE', filename]).splitlines() 
bad_lines = [int(s[:s.index(':')]) - 1 for s in grep] 
df = pd.read_csv(filename, skiprows=bad_lines)

es menos portátil que de @ (es decir: probablemente no funciona en Windows) eumiro y requiere leer el archivo dos veces, pero tiene la ventaja de que no tiene que almacenar todo el contenido del archivo en la memoria.

Por supuesto, podría hacer lo mismo que grep en Python, pero probablemente sería más lento.

Fuente

2013-04-09 19:49:29 Dougal

¿Es posible usar read_csv para leer solo líneas específicas?

Respuesta

Cuestiones relacionadas