Estoy comparando estos cuatro Nutch/Heritrix/OpenPipeLine/Apache Tika ¿Cuál es el mejor? ¿Cuáles son los méritos y deméritos de cada uno? Me gustaría tener un rastreador extensible que pueda rastrear una lista de sitios web y pueda modificarse si es necesario.¿Qué orugas de código abierto es la mejor?
Respuesta
No he investigado los rastreadores que menciona, pero sé que el que escribí es extensible y puede modificarse. También se puede usar con sitios web AJAX y "solo en JavaScript" (es decir, sitios que usan Google Web Toolkit).
El nombre es forklabs-javaxpcom y se puede encontrar en http://code.google.com/p/forklabs-javaxpcom/.
Nutch es la mayor parte de ellos, extremadamente configurable. Intentó con 100 millones de documentos. Confiable.
Heritrix funciona muy bien también, pero no es mejor que Nutch.
Puede dar Crawler4j una oportunidad si necesita arrastrarse rápido.
Para hacer un rastreo introductorio y usar y configurar el rastreador fácilmente con una interfaz de usuario simple, puede probar websphinx.
Tika no es un rastreador: it's a toolkit detects and extracts metadata and structured text content
tenía un trabajo que requiere el rastreo, pero OpenPipeLine no estaba en la lista de favoritos rastreadores. Tiene una interfaz de usuario, programador de trabajos; se usa para soluciones empresariales. Como solo quieres rastrear algunos sitios web, no necesitarás tales cosas.
- 1. ¿Cuál es el "mejor" intérprete de lolcode de código abierto?
- 2. ¿Cuál es el mejor reproductor FLV de código abierto (embebido)?
- 3. Mejor proveedor de código abierto LINQ
- 4. ¿Qué es un buen primer proyecto de código abierto?
- 5. ¿Es C de código abierto?
- 6. ¿ExtJS es de código abierto?
- 7. CMS + Comercio electrónico: ¿Qué programa de código abierto es el mejor?
- 8. ¿Qué es una buena implementación de código abierto VoiceXML?
- 9. facebook likebox qué código es mejor
- 10. ¿Magento realmente es de código abierto?
- 11. ¿Cuál es la mejor solución de código abierto para almacenar datos de series de tiempo?
- 12. ¿Cuál es la mejor herramienta de modelado UML compatible con Linux de código abierto?
- 13. ¿Cuál es la mejor herramienta de rastreo web de código abierto escrita en Java?
- 14. ¿Cuál es la mejor biblioteca de código abierto de Python para dibujar un gráfico?
- 15. ¿Cuál es la mejor biblioteca de visión por computador Java de código abierto?
- 16. ¿Cuál es la mejor y más activa tecnología de búsqueda de código abierto .Net?
- 17. ¿Qué es una buena implementación de árbol abierto de código abierto en C?
- 18. ¿Cuál es la mejor alternativa de código abierto para MS Team Foundation Server?
- 19. ¿Cuál es la mejor práctica para bifurcar un proyecto de código abierto?
- 20. ¿Por qué la proliferación de licencias de código abierto?
- 21. Mejor editor WSDL/XML de código abierto para Java
- 22. GitHub para Windows: ¿es de código abierto?
- 23. Mejor licencia para vender software de código abierto
- 24. Cuál es la diferencia entre las licencias de código abierto
- 25. ¿Cuál es el mejor paquete de código abierto de agrupamiento de documentos?
- 26. la promoción de proyectos de código abierto
- 27. ¿El código fuente abierto es JVM?
- 28. ¿Cuál es el mejor sistema de ticket de ayuda de código abierto?
- 29. ¿Cuál es el mejor ejemplo de código abierto de una aplicación ligera de Windows?
- 30. Incluyendo código en proyectos de código abierto