2008-08-15 29 views

Respuesta

10

Eche un vistazo a netflix contest. Creo que expusieron su base de datos, o un gran subconjunto, para facilitar el concurso.

ACTUALIZACIÓN: Their faq dice que tienen 100 millones de entradas en el subconjunto que puede descargar.

1

Es posible que desee consultar la generación de datos aleatorios para Fuzz Testing. Eso le daría una cantidad bastante ilimitada de datos de prueba, y es más probable que llegue a casos límite.

Tal vez un poco más de información sobre qué tipo de datos de prueba desea, qué formato y para qué tipo de aplicaciones?

1

No sé cuál es su plataforma de destino, pero si está desarrollando una base de datos MSSQL, consulte Visual Studio for Database Professionals. Tiene una característica muy buena en la que puede generar datos para su esquema utilizando un plan de datos que puede definir.

Redgate también tiene una herramienta de generación de datos, pero no la he usado.

La ventaja es que puede crear un plan de generación de datos y usarlo para poblar su base de datos con grandes cantidades de datos consistentes que pueden ajustarse para probar áreas específicas de su esquema.

1

Quizás también desee comprobar theinfo por Aaron Swartz.

Desde el sitio

Este es un sitio para grandes conjuntos de datos y las personas que los aman: los raspadores y rastreadores que los recogen, los académicos y geeks que los procesan, los diseñadores y artistas que los visualizan. Es un lugar donde pueden intercambiar consejos y trucos, desarrollar y compartir herramientas, y comenzar a integrar sus proyectos particulares .

2

He trabajado con los conjuntos de descarga Wikimedia, que son enormes archivos XML. Desafortunadamente, su servidor de descarga parece tener actualmente problemas de espacio en el disco, por lo que muchos de los conjuntos de datos no están disponibles. Pero cuando está disponible, todo el conjunto de datos de la Wikipedia en inglés con un historial completo es de 2.8 TB (18 GB comprimidos).

5

Puede que desee echar un vistazo a los datos de la Asociación Estadística Estadounidense data expo - detalles de vuelo de todos los vuelos comerciales en los EE. UU. Durante los últimos 20 años - 120 millones de registros, 11 gigas de datos.

2

Un número de del.icio.us usuarios (incluyéndome a mí) páginas de etiquetas que contienen datos públicos que utilizan la etiqueta "publicdata". Puede encontrar ese archivo here y suscribirse a un canal RSS para esa etiqueta here. Suscríbase al feed y verá un flujo constante de conjuntos de datos interesantes que aparecen en la web.

No todos los conjuntos de datos son grandes, pero a menudo son interesantes.

0

Si está interesado en personalizar el tipo de datos que obtiene, consulte Kimono Labs.Es un software de raspado web que puede utilizar para eliminar cualquier sitio de forma gratuita sin límite de filas devueltas. Simplemente configure una API en él (puede usar su generador de url para borrar varias URL a la vez) y luego utilice su conjunto de datos personales como JSON, CSV o RSS.

Cuestiones relacionadas