Busco una solución de rastreador web que puede madurar lo suficiente y se puede ampliar simplemente. Estoy interesado en las siguientes características ... o la posibilidad de extender el rastreador para recibirlos, porque¿Existe algún rastreador web extensible y simplemente extensible?
- en parte sólo para leer los feeds de varios sitios
- desechar el contenido de estos sitios
- si el El sitio tiene un archivo Me gustaría rastrearlo e indexarlo también
- El rastreador debe ser capaz de explorar parte de la Web para mí y debe poder decidir qué sitios coinciden con los criterios dados
- debería ser capaz de notifícame, si se encontraron cosas que posiblemente coincidan con mi interés
- el rastreador no debe matar a los servidores atacándola por demasiadas peticiones, que debería estar haciendo inteligente arrastrándose
- el rastreador debe ser robusto contra los sitios anormales y servidores
Esas cosas anterior se puede hacer una por uno sin ningún gran esfuerzo, pero estoy interesado en cualquier solución que proporcione un rastreador extensible y personalizable. Escuché de Apache Nutch, pero muy inseguro sobre el proyecto hasta ahora. ¿Tienes experiencias con eso? ¿Puedes recomendar alternativas?
parece ser una buena cosa, me gusta que sea de rubí, lo que me gusta, el autor creó una buena dsl para los rastreadores. pero comparado con nutch todavía no veo el soporte de RSS feed y cosas como el rastreo de PDF. pero es extensible.gracias por compartir la referencia a la anémona. – fifigyuri
Sin preocupaciones. Encantado de ayudar. –