2008-10-07 20 views
16

Necesito indexar un montón de páginas web, ¿qué buenas utilidades webcrawler hay? Preferiblemente estoy buscando algo con lo que .NET pueda hablar, pero eso no es nada sensacional.¿Qué es una buena herramienta Web Crawler?

Lo que realmente necesito es algo que pueda darle a la url de un sitio &, seguirá cada enlace y almacenará el contenido para indexar.

+0

Puede usar crawler4j si está de acuerdo con el uso de java. Aquí hay una guía paso a paso para configurar crawler4j junto con el fragmento de código para extraer imágenes, enlaces y correos electrónicos usando eso: http://www.buggybread.com/2013/01/create-your-own-email-and- image.html –

Respuesta

12

HTTrack - http://www.httrack.com/ - es una copiadora Website muy buena. Funciona bastante bien Lo he usado por mucho tiempo.

Nutch es un rastreador web (el rastreador es el tipo de programa que está buscando) - http://lucene.apache.org/nutch/ - que utiliza una utilidad de búsqueda de primera clase lucene.

1

Sphider es bastante bueno. Es PHP, pero podría ser de alguna ayuda.

0

No he usado esto todavía, pero this parece interesante. El autor lo escribió desde cero y publicó cómo lo hizo. El código para ello está disponible para descargar también.

2

Searcharoo.NET contiene una araña que rastrea e indexa el contenido, y un motor de búsqueda para usarlo. Debería poder orientarse en el código Searcharoo.Indexer.EXE para atrapar el contenido tal como se descarga y agregar su propio código personalizado desde allí ...

Es muy básico (se incluye todo el código fuente, y se explica en seis artículos de CodeProject, el más reciente de los cuales está aquí Searcharoo v6): la araña sigue enlaces, imágenes, imágenes, obedece a las directivas ROBOTS, analiza algunos tipos de archivos que no son HTML. Está destinado a sitios web únicos (no a toda la web).

Nutch/Lucene es casi seguro una solución más robusta/de grado comercial, pero no he revisado su código. No estoy seguro de lo que quiere lograr, pero ¿también ha visto Microsoft Search Server Express?

Descargo de responsabilidad: soy el autor de Searcharoo; solo ofreciéndolo aquí como una opción.

1

Yo uso Mozenda's Web Scraping software. Podría fácilmente hacer que rastree todos los enlaces y obtener toda la información que necesita y es un gran software por el dinero.

4

Crawler4j es un rastreador de código abierto de Java que proporciona una interfaz simple para rastrear la Web. Puede configurar un rastreador web multiproceso en 5 minutos.

Puede establecer su propio filtro para visitar páginas o no (urls) y definir alguna operación para cada página rastreada según su lógica.

Algunas razones para seleccionar crawler4j;

  1. estructura multihilo,
  2. Puede ajustar la profundidad de ser arrastrado,
  3. Es basado en Java y de código abierto,
  4. de control de enlaces redundantes (URLs),
  5. Puede número determinado de páginas que se desea rastrear,
  6. puede establecer el tamaño de página que se desea rastrear,
  7. documentación suficiente
+0

Google Code está muerto. Use Github en su lugar: https://github.com/yasserg/crawler4j – Green

Cuestiones relacionadas