2010-04-20 14 views
35

¿Conoce algún conjunto de datos de gran tamaño para experimentar con Hadoop que sea gratuito/de bajo costo? Se aprecian todos los indicadores/enlaces relacionados.Conjuntos de datos grandes y gratuitos para experimentar con Hadoop

prefernce:

  • Al menos uno GB de datos.

  • Datos de registro de producción del servidor web.

Pocos de ellos que he encontrado hasta ahora:

  1. Wikipedia dump

  2. http://wiki.freebase.com/wiki/Data_dumps

  3. http://aws.amazon.com/publicdatasets/

También podemos ejecutar nuestro propio rastreador para recopilar datos de sitios, p. Wikipedia? También se agradece cualquier sugerencia sobre cómo hacer esto.

+0

datanami recientemente publicado esta lista de enlaces: http: //www.datanami. com/2015/01/29/9-places-get-big-data-now/- tal vez alguien tiene tiempo para convertir esto en una respuesta adecuada. – Nickolay

Respuesta

10

Algunos puntos sobre su pregunta sobre el rastreo y la wikipedia.

Ha vinculado al wikipedia data dumps y puede usar el proyecto Cloud9 de UMD para trabajar con estos datos en Hadoop.

tienen una página en este: Working with Wikipedia

Otra fuente de datos para añadir a la lista es:

  • ClueWeb09 - 1 mil millones de páginas recogidas entre enero y febrero 09. Comprimido 5 TB.

El uso de un rastreador para generar datos debe publicarse en una pregunta separada sobre Hadoop/MapReduce, diría yo.

+1

link "Trabajar con Wikipedia" está muerto. ¿Es este reemplazo http://lintool.github.com/Cloud9/docs/content/wikipedia.html? – f13o

10

Una fuente obvia: the Stack Overflow trilogy data dumps. Estos están disponibles gratuitamente bajo la licencia de Creative Commons.

+0

@toddlermenot - Los vertederos ahora están alojados en el Archivo de Internet. He actualizado el enlace. Lea la razón por la que cambió [en esta página del blog SE] (https: //blog.stackexchange.com/2014/01/stack-exchange-cc-data-now-hosted-by-the-internet-archive /). – APC

Cuestiones relacionadas