Conjuntos de datos grandes y gratuitos para experimentar con Hadoop

¿Conoce algún conjunto de datos de gran tamaño para experimentar con Hadoop que sea gratuito/de bajo costo? Se aprecian todos los indicadores/enlaces relacionados.Conjuntos de datos grandes y gratuitos para experimentar con Hadoop

prefernce:

Al menos uno GB de datos.
Datos de registro de producción del servidor web.

Pocos de ellos que he encontrado hasta ahora:

También podemos ejecutar nuestro propio rastreador para recopilar datos de sitios, p. Wikipedia? También se agradece cualquier sugerencia sobre cómo hacer esto.

Fuente

2010-04-20 Sundar

datanami recientemente publicado esta lista de enlaces: http: //www.datanami. com/2015/01/29/9-places-get-big-data-now/- tal vez alguien tiene tiempo para convertir esto en una respuesta adecuada. – Nickolay

Algunos puntos sobre su pregunta sobre el rastreo y la wikipedia.

Ha vinculado al wikipedia data dumps y puede usar el proyecto Cloud9 de UMD para trabajar con estos datos en Hadoop.

tienen una página en este: Working with Wikipedia

Otra fuente de datos para añadir a la lista es:

ClueWeb09 - 1 mil millones de páginas recogidas entre enero y febrero 09. Comprimido 5 TB.

El uso de un rastreador para generar datos debe publicarse en una pregunta separada sobre Hadoop/MapReduce, diría yo.

Fuente

2010-04-22 22:17:04

link "Trabajar con Wikipedia" está muerto. ¿Es este reemplazo http://lintool.github.com/Cloud9/docs/content/wikipedia.html? – f13o

Una fuente obvia: the Stack Overflow trilogy data dumps. Estos están disponibles gratuitamente bajo la licencia de Creative Commons.

Fuente

2010-04-20 11:25:12 APC

@toddlermenot - Los vertederos ahora están alojados en el Archivo de Internet. He actualizado el enlace. Lea la razón por la que cambió [en esta página del blog SE] (https: //blog.stackexchange.com/2014/01/stack-exchange-cc-data-now-hosted-by-the-internet-archive /). – APC

No es ningún archivo de registro, pero tal vez usted podría utilizar el archivo planeta de OpenStreetMap: http://wiki.openstreetmap.org/wiki/Planet.osm

licencia CC, alrededor de 160 GB (sin embalaje)

Hay archivos también más pequeños para cada continente: http://wiki.openstreetmap.org/wiki/World

Fuente

2010-04-20 11:33:06 Olvagor

Ésta es una colección de 189 conjuntos de datos para la máquina de aprendizaje (que es una de las mejores aplicaciones para hadoop g): http://archive.ics.uci.edu/ml/datasets.html

Fuente

2010-04-23 13:15:48

Conjuntos de datos grandes y gratuitos para experimentar con Hadoop

Respuesta

Cuestiones relacionadas