Esta es la primera vez que pruebo pandas. Creo que tengo un caso de uso razonable, pero estoy dando tumbos. Quiero cargar un archivo delimitado por tabuladores en un Dataframe de Pandas, luego agruparlo por Symbol y trazarlo con el eje x indexado por la columna TimeStamp. Aquí hay un subconjunto de los datos:Pandas DataFrame - el índice deseado tiene valores duplicados
Symbol,Price,M1,M2,Volume,TimeStamp
TBET,2.19,3,8.05,1124179,9:59:14 AM
FUEL,3.949,9,1.15,109674,9:59:11 AM
SUNH,4.37,6,0.09,24394,9:59:09 AM
FUEL,3.9099,8,1.11,105265,9:59:09 AM
TBET,2.18,2,8.03,1121629,9:59:05 AM
ORBC,3.4,2,0.22,10509,9:59:02 AM
FUEL,3.8599,7,1.07,102116,9:58:47 AM
FUEL,3.8544,6,1.05,100116,9:58:40 AM
GBR,3.83,4,0.46,64251,9:58:24 AM
GBR,3.8,3,0.45,63211,9:58:20 AM
XRA,3.6167,3,0.12,42310,9:58:08 AM
GBR,3.75,2,0.34,47521,9:57:52 AM
MPET,1.42,3,0.26,44600,9:57:52 AM
Tenga en cuenta dos cosas acerca de la columna TimeStamp;
- tiene valores duplicados y
- los intervalos son irregulares.
pensé que podía hacer algo como esto ...
from pandas import *
import pylab as plt
df = read_csv('data.txt',index_col=5)
df.sort(ascending=False)
df.plot()
plt.show()
Pero el método read_csv genera una excepción "columnas intentado los pasos 1-X como índice, pero encontré duplicados". ¿Hay alguna opción que me permita especificar una columna de índice con valores duplicados?
También me gustaría alinear mis intervalos irregulares de indicación de fecha y hora en una resolución de un segundo, aún así quisiera trazar varios eventos por un segundo dado, pero ¿podría introducir un índice único y luego alinear mis precios?
Gracias. Me uniré a pystatsmodels - si buscas noobs tropezables con casos de uso, podría ser territorio fértil. – kavu
Si por tiempos crudos te refieres solo a enteros con quizás una tasa de muestreo, aquí hay un voto popular. El mundo entero de las grabaciones científicas está desesperado por una extensión de TimeSeries en esa dirección ... – meteore