2011-02-16 23 views
5

Me gustaría configurar el rastreador para rastrear un sitio web, por ejemplo, blog, y buscarme solo los enlaces en el sitio web y pegar los enlaces dentro de un archivo de texto. ¿Me puede guiar paso a paso para configurar el rastreador? Estoy usando Eclipse.guía para instalar crawler4j

Respuesta

0

Jsoup hará todo lo que necesite wrt html parsing. Jsoup es una aplicación Java para manejar código fuente html. Puede obtener

  1. Tabla, con la que puede analizar cada una de las filas o columnas.
  2. Lista de todos los enlaces e importaciones de origen con el HTML (importaciones como archivos CSS y JS).
  3. Datos de una etiqueta en particular.

y más.

Para su propósito, here es el código de ejemplo.

Espero que esto te ayude.