¿Cómo distribuyo una pequeña cantidad de datos en orden aleatorio en un volumen mucho mayor de datos?Distribución aleatoria de datos
Por ejemplo, tengo varios miles de líneas de datos 'reales', y quiero insertar una docena o dos líneas de datos de control en orden aleatorio en todos los datos 'reales'.
Ahora no estoy tratando de preguntar cómo usar generadores de números aleatorios, estoy haciendo una pregunta estadística, sé cómo generar números aleatorios, pero mi pregunta es ¿cómo me aseguro de que esta información se inserte de forma aleatoria? orden mientras que al mismo tiempo se distribuye de manera bastante uniforme a través del archivo.
Si solo confío en generar números aleatorios existe la posibilidad (aunque muy pequeña) de que todos mis datos de control, o al menos grupos de ellos, se inserten dentro de una selección bastante estrecha de datos 'reales'. ¿Cuál es la mejor manera de evitar que esto suceda?
Para decirlo de otra manera, quiero insertar datos de control a lo largo de mis datos reales sin que haya una forma de que un tercero calcule qué filas son de control y cuáles son reales.
Actualización: He hecho de esto un 'wiki de la comunidad', así que si alguien quiere editar mi pregunta para que tenga más sentido, adelante.
Actualización: Déjame probar un ejemplo (no quiero hacer que este lenguaje o plataforma dependa, ya que no es una pregunta de codificación, es una pregunta estadística).
- Tengo 3000 filas de datos 'reales' (esta cantidad cambiará de ejecución a ejecución, dependiendo de la cantidad de datos que tenga el usuario).
- Tengo 20 filas de datos de "control" (de nuevo, esto cambiará dependiendo del número de filas de control que el usuario quiera usar, cualquier cosa desde cero hacia arriba).
ahora desea insertar estos 20 'de control' filas aproximadamente después de cada 150 filas o datos 'real' ha sido insertada (3000/20 = 150). Sin embargo, no quiero que sea tan preciso ya que no quiero que las filas de control sean identificables simplemente en función de su ubicación en los datos de salida.
Por lo tanto no me importa algunos de las filas de 'control' de ser agrupadas o para que haya algunos secciones con ninguna fila de 'control' en todos los muy pocos o, pero en general, quiero que el 'control' filas bastante uniformemente distribuidas a través de los datos.
¿En qué contexto? ¿Esto está en una base de datos? Un archivo de texto sin formato? – ine
Es un archivo de texto sin formato, en realidad tengo las filas en la memoria junto con las filas de control. Mientras escribo las filas "reales" para archivar, quiero poder decidir si debo escribir una fila de "control", con las filas de control distribuidas a lo largo de los datos reales y no todas agrupadas al principio o al final. – AnturCynhyrfus