2012-07-15 22 views
6

Tengo una tabla que contiene las columnas date_trans, time_trans, price. Después de seleccionar la consulta, deseo agregar una nueva columna "Recuento" que se calculará como los valores iguales consecutivos de la columna de precios y las filas anteriores que tengan precios iguales iguales se eliminarán del resultado final. Ver el resultado esperado:Optimizar una consulta o sugerir LINQ equivalente

date_trans time_trans price **Count**  
2011-02-22 09:39:59 58.02 1 
2011-02-22 09:40:03 58.1 *ROW WILL BE REMOVED 
2011-02-22 09:40:07 58.1 *ROW WILL BE REMOVED 
2011-02-22 09:40:08 58.1 3 
2011-02-22 09:40:10 58.15 1 
2011-02-22 09:40:10 58.1 *ROW WILL BE REMOVED 
2011-02-22 09:40:14 58.1 2 
2011-02-22 09:40:24 58.15 1 
2011-02-22 09:40:24 58.18 *ROW WILL BE REMOVED 
2011-02-22 09:40:24 58.18 *ROW WILL BE REMOVED 
2011-02-22 09:40:24 58.18 3 
2011-02-22 09:40:24 58.15 1 

Para sugerir una consulta SQL o expresión LINQ para seleccionar de la tabla

Actualmente, no puedo hacer que sea una consulta de selección y bucle a través de todas las filas seleccionadas, pero la hora de seleccionar a millones de filas lleva horas.

Mi código actual:

string query = @"SELECT date_trans, time_trans, price 
          FROM tbl_data 
         WHERE date_trans BETWEEN '2011-02-22' AND '2011-10-21' 
         AND time_trans BETWEEN '09:30:00' AND '16:00:00'"; 

      DataTable dt = oUtil.GetDataTable(query); 

      DataColumn col = new DataColumn("Count", typeof(int)); 
      dt.Columns.Add(col); 

      int priceCount = 1; 
      for (int count = 0; count < dt.Rows.Count; count++) 
      { 
       double price = Convert.ToDouble(dt.Rows[count]["price"]); 
       double priceNext = (count == dt.Rows.Count - 1) ? 0 : Convert.ToDouble(dt.Rows[count + 1]["price"]); 
       if (price == priceNext) 
       { 
        priceCount++; 
        dt.Rows.RemoveAt(count); 
        count--; 
       } 
       else 
       { 
        dt.Rows[count]["Count"] = priceCount; 
        priceCount = 1; 
       } 
      } 
+0

Creo que es posible con funciones analíticas en SQL. Es tarde, así que mi cerebro no puede procesarlo todo ahora, pero cuando esté descansado, volveré y veré si todavía necesitas una respuesta. Pero creo que debería comenzar mirando [esta respuesta] (http://stackoverflow.com/questions/7854854/getting-all-consecutive-rows-differing-by-certain-value) y cómo usa las funciones analíticas. – Ally

Respuesta

2

Eso es muy interesante. Creo que lo que necesita sería algo como esto:

SELECT MAX(date_trans), MAX(time_trans), MAX(price), COUNT(*) 
FROM 
    (SELECT *, ROW_NUMBER() OVER(PARTITION BY price ORDER BY date_trans, time_trans) - ROW_NUMBER() OVER(ORDER BY date_trans, time_trans) AS grp 
    FROM transactions) grps 
GROUP BY grp 

encontrado la solución aquí: http://www.sqlmag.com/article/sql-server/solution-to-the-t-sql-puzzle-grouping-consecutive-rows-with-a-common-element

actualizar la columna

La agrupación debe incluir también "precio", de lo contrario los grupos no podría ser único. Una cosa más es que la columna de fecha y hora se debe combinar en una columna de fecha y hora para que el valor máximo de fecha y hora sea correcto en grupos que comienzan cerca del final de un día y finalizan al principio del siguiente. Aquí está la consulta corregida.

SELECT MAX(CAST(date_trans AS DATETIME) + CAST(time_trans AS DATETIME)) , MAX(price), COUNT(*) 
FROM 
    (SELECT *, 
     CAST(ROW_NUMBER() OVER(PARTITION BY price ORDER BY date_trans, time_trans) - ROW_NUMBER() OVER(ORDER BY date_trans, time_trans) AS NVARCHAR(255)) + '-' + CAST(price AS NVARCHAR(255)) AS grp 
    FROM transactions 
    ORDER BY date_trans, time_trans) grps 
GROUP BY grp 

La consulta puede ser más óptimo con la columna 'grp' como una matriz de bytes o bigint en lugar de un nvarchar. También mencionó una columna de 'volumen' que probablemente quiera sumar dentro del grupo.

+0

Gracias Pawel. Ya casi estás ahí. Descargue el csv, importe en la base de datos y verifique. Algunos registros muestran duplicados. Por favor, ayúdame mejorando tu consulta. https://docs.google.com/open?id=0B_fUxFgeU2-dc3hfR2JrR2ExQ2s Las columnas son date_trans, time_trans, price, volume en el CSV – Mainuddin

+0

Right. Actualizado la respuesta. No lo había notado antes pero etiquetó su pregunta 'mysql' pero usted quiso decir 'mssql', ¿verdad? –

+0

De acuerdo. Arreglado. –