Estoy haciendo algunas pruebas con nutch y hadoop y necesito una gran cantidad de datos. Quiero comenzar con 20 GB, ir a 100 GB, 500 GB y eventualmente llegar a 1-2 TB.¿Cómo se produce una gran cantidad de datos?
El problema es que no tengo esta cantidad de datos, entonces estoy pensando en maneras de producirlo.
Los datos en sí pueden ser de cualquier tipo. Una idea es tomar un conjunto inicial de datos y duplicarlo. Pero no es lo suficientemente bueno porque necesita archivos que son diferentes el uno del otro (se ignoran los archivos idénticos).
Otra idea es escribir un programa que creará archivos con datos ficticios.
¿Alguna otra idea?
¿Datos de consulta de analitycs de google? – Sephy
Wow, un programa como ese tomaría una buena cantidad de tiempo para funcionar. –
¿Ha considerado generar números aleatorios? –