2010-01-18 16 views
7

Busco una solución de rastreador web que puede madurar lo suficiente y se puede ampliar simplemente. Estoy interesado en las siguientes características ... o la posibilidad de extender el rastreador para recibirlos, porque¿Existe algún rastreador web extensible y simplemente extensible?

  • en parte sólo para leer los feeds de varios sitios
  • desechar el contenido de estos sitios
  • si el El sitio tiene un archivo Me gustaría rastrearlo e indexarlo también
  • El rastreador debe ser capaz de explorar parte de la Web para mí y debe poder decidir qué sitios coinciden con los criterios dados
  • debería ser capaz de notifícame, si se encontraron cosas que posiblemente coincidan con mi interés
  • el rastreador no debe matar a los servidores atacándola por demasiadas peticiones, que debería estar haciendo inteligente arrastrándose
  • el rastreador debe ser robusto contra los sitios anormales y servidores

Esas cosas anterior se puede hacer una por uno sin ningún gran esfuerzo, pero estoy interesado en cualquier solución que proporcione un rastreador extensible y personalizable. Escuché de Apache Nutch, pero muy inseguro sobre el proyecto hasta ahora. ¿Tienes experiencias con eso? ¿Puedes recomendar alternativas?

Respuesta

2

Una búsqueda rápida en GitHub arrojó , un marco web araña que parece ajustarse a sus requisitos, especialmente extensibilidad. Escrito en Ruby.
¡Espero que vaya bien!

+0

parece ser una buena cosa, me gusta que sea de rubí, lo que me gusta, el autor creó una buena dsl para los rastreadores. pero comparado con nutch todavía no veo el soporte de RSS feed y cosas como el rastreo de PDF. pero es extensible.gracias por compartir la referencia a la anémona. – fifigyuri

+0

Sin preocupaciones. Encantado de ayudar. –

2

Sinceramente recomiendo heritrix. Es MUY flexible y yo diría que es el rastreador de fuente abierta de prueba libre más probado en batalla, ya que es el que usa Internet Archive.

2

Debería poder encontrar algo que se adapte a sus necesidades here.

+0

son estas cosas sólo creó en Java? – Toad

+0

El artículo se titula, "Crawlers web de código abierto escritos en Java". Sin embargo, puede encontrar rastreadores web creados en otros idiomas que pueden proporcionarle lo que necesita. – Brian

4

He utilizado Nutch extensivamente, cuando estaba construyendo el índice de proyecto de código abierto para mi inicio de Krugle. Es difícil de personalizar, ya que es un diseño bastante monolítico. Hay una arquitectura plug-in, pero la interacción entre los complementos y el sistema es complicada y frágil.

Como resultado de esa experiencia, y necesitando algo con más flexibilidad, comencé el proyecto Bixo, un conjunto de herramientas de minería web. http://openbixo.org.

si es correcto para usted depende de la ponderación de factores tales como:

  1. ¿Cuánta flexibilidad que necesita (+)
  2. el grado de madurez que debe ser (-)
  3. si necesita las capacidad de escalar (+)
  4. Si se siente cómodo con Java/Hadoop (+)
Cuestiones relacionadas