Siempre estoy buscando grandes conjuntos de datos para probar varios tipos de programas. ¿Alguien tiene alguna sugerencia?Conjuntos de datos grandes
Respuesta
Eche un vistazo a netflix contest. Creo que expusieron su base de datos, o un gran subconjunto, para facilitar el concurso.
ACTUALIZACIÓN: Their faq dice que tienen 100 millones de entradas en el subconjunto que puede descargar.
Es posible que desee consultar la generación de datos aleatorios para Fuzz Testing. Eso le daría una cantidad bastante ilimitada de datos de prueba, y es más probable que llegue a casos límite.
Tal vez un poco más de información sobre qué tipo de datos de prueba desea, qué formato y para qué tipo de aplicaciones?
No sé cuál es su plataforma de destino, pero si está desarrollando una base de datos MSSQL, consulte Visual Studio for Database Professionals. Tiene una característica muy buena en la que puede generar datos para su esquema utilizando un plan de datos que puede definir.
Redgate también tiene una herramienta de generación de datos, pero no la he usado.
La ventaja es que puede crear un plan de generación de datos y usarlo para poblar su base de datos con grandes cantidades de datos consistentes que pueden ajustarse para probar áreas específicas de su esquema.
Quizás también desee comprobar theinfo por Aaron Swartz.
Desde el sitio
Este es un sitio para grandes conjuntos de datos y las personas que los aman: los raspadores y rastreadores que los recogen, los académicos y geeks que los procesan, los diseñadores y artistas que los visualizan. Es un lugar donde pueden intercambiar consejos y trucos, desarrollar y compartir herramientas, y comenzar a integrar sus proyectos particulares .
He trabajado con los conjuntos de descarga Wikimedia, que son enormes archivos XML. Desafortunadamente, su servidor de descarga parece tener actualmente problemas de espacio en el disco, por lo que muchos de los conjuntos de datos no están disponibles. Pero cuando está disponible, todo el conjunto de datos de la Wikipedia en inglés con un historial completo es de 2.8 TB (18 GB comprimidos).
Puede que desee echar un vistazo a los datos de la Asociación Estadística Estadounidense data expo - detalles de vuelo de todos los vuelos comerciales en los EE. UU. Durante los últimos 20 años - 120 millones de registros, 11 gigas de datos.
Un número de del.icio.us usuarios (incluyéndome a mí) páginas de etiquetas que contienen datos públicos que utilizan la etiqueta "publicdata". Puede encontrar ese archivo here y suscribirse a un canal RSS para esa etiqueta here. Suscríbase al feed y verá un flujo constante de conjuntos de datos interesantes que aparecen en la web.
No todos los conjuntos de datos son grandes, pero a menudo son interesantes.
Si está interesado en personalizar el tipo de datos que obtiene, consulte Kimono Labs.Es un software de raspado web que puede utilizar para eliminar cualquier sitio de forma gratuita sin límite de filas devueltas. Simplemente configure una API en él (puede usar su generador de url para borrar varias URL a la vez) y luego utilice su conjunto de datos personales como JSON, CSV o RSS.
- 1. triplestore para grandes conjuntos de datos
- 2. Procesar grandes conjuntos de datos usando LINQ
- 3. SQLite para grandes conjuntos de datos?
- 4. ICollectionView.filter de WPF con grandes conjuntos de datos
- 5. interpolación de grandes conjuntos de datos sobre la marcha
- 6. Optimización de Autocompletar para grandes conjuntos de datos
- 7. Trazado de conjuntos de datos muy grandes en R
- 8. cómo analizar grandes conjuntos de datos utilizando RDFLib?
- 9. sqlite o mysql para grandes conjuntos de datos
- 10. ¿Experiencias con Clojure STM para grandes conjuntos de datos?
- 11. ¿Está JavaScript listo para visualizar grandes conjuntos de datos?
- 12. C# LINQ y cálculos que involucran grandes conjuntos de datos
- 13. Conjuntos de datos grandes y gratuitos para experimentar con Hadoop
- 14. Rendimiento para agregar elementos grandes/conjuntos de datos al dom
- 15. ¿Existe un patrón de diseño para manejar grandes conjuntos de datos a través de Internet?
- 16. Python: ¿calcula funciones de densidad de probabilidad multinomial en grandes conjuntos de datos?
- 17. Django (?) Realmente lento con grandes conjuntos de datos después de hacer un perfil de python
- 18. Mover grandes conjuntos de datos de forma eficiente entre las tablas de SQL Server?
- 19. La forma más rápida de migrar del servidor sql a sqlite para grandes conjuntos de datos
- 20. MySQL Inserción de grandes conjuntos de datos del archivo con Java
- 21. ¿Qué se puede hacer para mejorar el rendimiento de IE8 para grandes conjuntos de datos?
- 22. Implementación IList de archivo mapeado en memoria, para almacenar conjuntos de datos grandes "en la memoria"?
- 23. ¿Cómo puedo acelerar la iteración de grandes conjuntos de datos en Django?
- 24. ¿Qué debo usar para eliminar html escapado de grandes conjuntos de datos?
- 25. La mejor manera de almacenar y recuperar grandes conjuntos de datos con Java
- 26. ¿Cuál es la mejor manera de visualizar grandes conjuntos de datos en QT
- 27. CASO frente a consultas de ACTUALIZACIÓN múltiples para grandes conjuntos de datos - Rendimiento
- 28. Transmisión de grandes conjuntos de resultados con MySQL
- 29. ¿Cuál es la mejor estrategia para retener grandes conjuntos de datos?
- 30. cómo tratar con grandes conjuntos de datos con el isótopo jquery