¿Cómo rastrear toda la Wikipedia?

He intentado la aplicación WebSphinx.¿Cómo rastrear toda la Wikipedia?

Me doy cuenta de que si pongo wikipedia.org como URL inicial, no se rastreará más.

Por lo tanto, ¿cómo realmente rastrear toda la Wikipedia? ¿Alguien puede darme algunas pautas? ¿Debo ir específicamente a buscar esas URL y poner varias URL iniciales?

¿Alguien tiene sugerencias de buen sitio web con el tutorial sobre la API de usng WebSphinx?

Fuente

2010-02-22 Mr CooL

Si su objetivo es rastrear toda Wikipedia, es posible que desee consultar los volcados de bases de datos disponibles. Ver http://download.wikimedia.org/.

Fuente

2010-02-22 20:02:59 Andrew

+26

+1. El rastreo de Wikipedia a través de HTTP es grosero y supone una gran carga adicional para los servidores. –

@GregHewgill, esa es una afirmación bastante sugestiva. Realmente depende de qué tan rápido rastree el sitio, si respeta las directivas de robots.txt y lo que consideraría como "mucha carga extra". Según la wikipedia "Los bots amigables y de baja velocidad son bienvenidos a ver páginas de artículos, pero no páginas generadas dinámicamente por favor". - http://en.wikipedia.org/robots.txt Los rastreadores generalmente no están diseñados para analizar documentos XML específicos de wikipedia llenos de etiquetas wiki, por lo que crear un sistema separado para analizar los vaciados xml con fecha solo para wikipedia.com parece tonto . –

No lo entiendo: si se permite el rastreo amigable, ¿por qué no permiten tal cantidad de rastreadores en robots.txt? – TechNyquist

Probablemente necesite comenzar con un artículo al azar, y luego rastrear todos los artículos que puede obtener desde el que comienza. Cuando ese árbol de búsqueda se haya agotado, comience con un nuevo artículo al azar. Puede sembrar sus búsquedas con los términos que cree que llevarán a la mayoría de los artículos, o comenzar con el artículo presentado en la página principal.

Otra pregunta: ¿Por qué WebSphinx no se arrastró aún más? ¿Wikipedia bloquea bots que se identifican como 'WebSphinx'?

Fuente

2010-02-22 20:03:34 FrustratedWithFormsDesigner

No estoy seguro, pero tal vez el agente de usuario de WEbSphinx está bloqueado por robots.txt de Wikipedia

http://en.wikipedia.org/robots.txt

Fuente

2010-02-22 20:05:47

Además de utilizar el volcado de la base de datos de Wikipedia se ha mencionado anteriormente, se puede utilizar la API de Wikipedia para ejecutar consultas, tales como recuperar 100 artículos aleatorios.

http://www.mediawiki.org/wiki/API:Query_-Lists#random.2F_rn

Fuente

2010-02-23 00:50:13 Gabe

Creo que no podría elegir la configuración necesaria para ello. Cambie a avanzado, rastree el subdominio, limite el tamaño de la página y la hora.

Sin embargo, WebSphinx probablemente no puede rastrear todo el Wikipedia, se ralentiza con los datos más grandes y, finalmente, se detiene cerca se utiliza 200 MB de memoria. Te recomiendo Nutch, Heritrix y Crawler4j.

Fuente

2012-04-21 13:04:59

-1

Eche un vistazo a dbpedia, una versión estructurada de Wikipedia.

Fuente

2014-08-19 00:01:10

¿Cómo rastrear toda la Wikipedia?

Respuesta

Cuestiones relacionadas