2010-02-22 26 views
5

He intentado la aplicación WebSphinx.¿Cómo rastrear toda la Wikipedia?

Me doy cuenta de que si pongo wikipedia.org como URL inicial, no se rastreará más.

Por lo tanto, ¿cómo realmente rastrear toda la Wikipedia? ¿Alguien puede darme algunas pautas? ¿Debo ir específicamente a buscar esas URL y poner varias URL iniciales?

¿Alguien tiene sugerencias de buen sitio web con el tutorial sobre la API de usng WebSphinx?

Respuesta

43

Si su objetivo es rastrear toda Wikipedia, es posible que desee consultar los volcados de bases de datos disponibles. Ver http://download.wikimedia.org/.

+26

+1. El rastreo de Wikipedia a través de HTTP es grosero y supone una gran carga adicional para los servidores. –

+7

@GregHewgill, esa es una afirmación bastante sugestiva. Realmente depende de qué tan rápido rastree el sitio, si respeta las directivas de robots.txt y lo que consideraría como "mucha carga extra". Según la wikipedia "Los bots amigables y de baja velocidad son bienvenidos a ver páginas de artículos, pero no páginas generadas dinámicamente por favor". - http://en.wikipedia.org/robots.txt Los rastreadores generalmente no están diseñados para analizar documentos XML específicos de wikipedia llenos de etiquetas wiki, por lo que crear un sistema separado para analizar los vaciados xml con fecha solo para wikipedia.com parece tonto . –

+0

No lo entiendo: si se permite el rastreo amigable, ¿por qué no permiten tal cantidad de rastreadores en robots.txt? – TechNyquist

0

Probablemente necesite comenzar con un artículo al azar, y luego rastrear todos los artículos que puede obtener desde el que comienza. Cuando ese árbol de búsqueda se haya agotado, comience con un nuevo artículo al azar. Puede sembrar sus búsquedas con los términos que cree que llevarán a la mayoría de los artículos, o comenzar con el artículo presentado en la página principal.

Otra pregunta: ¿Por qué WebSphinx no se arrastró aún más? ¿Wikipedia bloquea bots que se identifican como 'WebSphinx'?

2

Creo que no podría elegir la configuración necesaria para ello. Cambie a avanzado, rastree el subdominio, limite el tamaño de la página y la hora.

Sin embargo, WebSphinx probablemente no puede rastrear todo el Wikipedia, se ralentiza con los datos más grandes y, finalmente, se detiene cerca se utiliza 200 MB de memoria. Te recomiendo Nutch, Heritrix y Crawler4j.

-1

Eche un vistazo a dbpedia, una versión estructurada de Wikipedia.