2011-08-30 12 views
7

Estoy buscando un analizador de robots.txt en Java, que admite el mismo pattern matching rules que el robot de Google.Analizador de robots.txt de Java con soporte de comodines

he encontrado algunos Librairies para analizar archivos robots.txt, pero ninguno de ellos es compatible con el patrón de estilo robot de Google a juego:

  • Heritrix (hay un open issue sobre este tema)
  • Crawler4j (miradas al igual que la misma implementación que Heritrix)
  • jrobotx

¿alguien sabe de una biblioteca de java que puede hacer esto?

+0

creo ex rastreador trabajar . http://sourceforge.net/projects/ex-crawler/ – Fred

Respuesta

1

Nutch parece estar usando una combinación de crawler-commons con some custom code (ver RobotsRulesParser.java). Aunque no estoy seguro del estado actual de los asuntos.

En particular, la cuestión NUTCH-1455 parece estar bastante relacionada con sus necesidades:

Si el nombre (s) de agente de usuario configurado en http.robots.agents contiene espacios que no se corresponde incluso si es exactamente contenida en el archivo robots.txt http.robots.agents = "Descargar Ninja, *"

Quizás su pena probar/parche/someter la solución :)