2011-12-07 17 views
5

Estoy comparando estos cuatro Nutch/Heritrix/OpenPipeLine/Apache Tika ¿Cuál es el mejor? ¿Cuáles son los méritos y deméritos de cada uno? Me gustaría tener un rastreador extensible que pueda rastrear una lista de sitios web y pueda modificarse si es necesario.¿Qué orugas de código abierto es la mejor?

Respuesta

1

No he investigado los rastreadores que menciona, pero sé que el que escribí es extensible y puede modificarse. También se puede usar con sitios web AJAX y "solo en JavaScript" (es decir, sitios que usan Google Web Toolkit).

El nombre es forklabs-javaxpcom y se puede encontrar en http://code.google.com/p/forklabs-javaxpcom/.

3

Nutch es la mayor parte de ellos, extremadamente configurable. Intentó con 100 millones de documentos. Confiable.

Heritrix funciona muy bien también, pero no es mejor que Nutch.

Puede dar Crawler4j una oportunidad si necesita arrastrarse rápido.

Para hacer un rastreo introductorio y usar y configurar el rastreador fácilmente con una interfaz de usuario simple, puede probar websphinx.

Tika no es un rastreador: it's a toolkit detects and extracts metadata and structured text content

tenía un trabajo que requiere el rastreo, pero OpenPipeLine no estaba en la lista de favoritos rastreadores. Tiene una interfaz de usuario, programador de trabajos; se usa para soluciones empresariales. Como solo quieres rastrear algunos sitios web, no necesitarás tales cosas.

Cuestiones relacionadas