He intentado la aplicación WebSphinx.¿Cómo rastrear toda la Wikipedia?
Me doy cuenta de que si pongo wikipedia.org como URL inicial, no se rastreará más.
Por lo tanto, ¿cómo realmente rastrear toda la Wikipedia? ¿Alguien puede darme algunas pautas? ¿Debo ir específicamente a buscar esas URL y poner varias URL iniciales?
¿Alguien tiene sugerencias de buen sitio web con el tutorial sobre la API de usng WebSphinx?
+1. El rastreo de Wikipedia a través de HTTP es grosero y supone una gran carga adicional para los servidores. –
@GregHewgill, esa es una afirmación bastante sugestiva. Realmente depende de qué tan rápido rastree el sitio, si respeta las directivas de robots.txt y lo que consideraría como "mucha carga extra". Según la wikipedia "Los bots amigables y de baja velocidad son bienvenidos a ver páginas de artículos, pero no páginas generadas dinámicamente por favor". - http://en.wikipedia.org/robots.txt Los rastreadores generalmente no están diseñados para analizar documentos XML específicos de wikipedia llenos de etiquetas wiki, por lo que crear un sistema separado para analizar los vaciados xml con fecha solo para wikipedia.com parece tonto . –
No lo entiendo: si se permite el rastreo amigable, ¿por qué no permiten tal cantidad de rastreadores en robots.txt? – TechNyquist