2010-07-27 22 views
15

Estoy buscando twitter u otro conjunto de datos de sitios de redes sociales para mi proyecto. Actualmente tengo el conjunto de datos de CAW 2.0 twitter, pero solo contiene tweets de usuarios. Quiero una información que muestre el número de amigos, seguidor y demás.Twitter (redes sociales) Conjunto de datos

No tiene que ser twitter pero preferiría twitter o facebook. Ya probé Infochimps, pero aparentemente el archivo ya no se puede descargar para Twitter.

¿Puede alguien darme buenos sitios web para encontrar este tipo de conjunto de datos? Voy a alimentar el conjunto de datos a hadoop.

Respuesta

7

pruebe las siguientes tres conjuntos de datos:

contiene alrededor de 97 milllion tuits:

http://demeter.inf.ed.ac.uk/index.php?option=com_content&view=article&id=2:test-post-for-twitter&catid=1:twitter&Itemid=2

ed nota : el conjunto de datos previamente vinculado anteriormente ya no está disponible debido a una solicitud de Twitter para eliminarlo.

Contiene gráfica de usuario de 47 millones de usuarios:

http://an.kaist.ac.kr/traces/WWW2010.html

Siguiendo conjunto de datos contiene la red, así como tweets, sin embargo los datos se recogió por muestreo de bola de nieve o algo por lo tanto, la red de amigos no es uniforme. Tiene alrededor de 10 millones de tweets en los que puede enviar al investigador más datos.

http://www.public.asu.edu/~mdechoud/datasets.html

Aunque echar un vistazo a la licencia de los datos se distribuye bajo.

Espero que esto ayude, También me puede decir qué tipo de trabajo está planeando con este conjunto de datos? tengo unos cuantos scripts hadoop/cerdo para su uso con el conjunto de datos

+0

no estoy seguro, pero lo usaré para mi clase de aprendizaje automático. – denniss

+1

@Akshay Bhat: Parece que han eliminado los conjuntos de datos a partir de hoy. ¿Conoces algún otro conjunto de datos que pueda estar disponible? ¡Gracias! – Legend

5

100 millones de páginas fueron extraídos de facebook: http://it.slashdot.org/story/10/07/28/1350222/100-Million-Facebook-Pages-Leaked-On-Torrent-Site?art_pos=6

No sé lo que contienen, pero se puede echar un vistazo, parece que es fácil de encontrar en los sitios de torrents.

También podría usar la API de Facebook, pero si desea un conjunto de datos lo suficientemente grande, deberá solicitar a Facebook los derechos de acceso. Contiene enlaces a los amigos, gustos, grupos, ...

+1

También hay una API de Twitter por cierto. –

+0

sí lo vi.gracias aunque – denniss

+0

raro como no gané el bounty –

1

Creo que la mejor herramienta para los datos de Twitter reunión es http://www.followthehashtag.com, puede obtener los datos históricos o futuros y con los datos avanzados exportación características

con una sección donde añadimos grandes conjuntos de datos (alrededor de 200.000 tuits) una vez por semana

http://followthehashtag.com/datasets/

Cuestiones relacionadas