Descargo las bibliotecas tika-core y tika-parser, pero no pude encontrar los códigos de ejemplo para analizar los documentos HTML en la cadena. Tengo que deshacerme de todas las etiquetas html del origen de una página web. ¿Que puedo hacer? ¿Cómo codifico eso usando Apache Tika?¿Cómo puedo usar el analizador HTML con Apache Tika en Java para extraer todas las etiquetas HTML?
Q
¿Cómo puedo usar el analizador HTML con Apache Tika en Java para extraer todas las etiquetas HTML?
7
A
Respuesta
19
¿Desea una versión de texto sin formato de un archivo html? Si es así, todo lo que necesita es algo así como:
InputStream input = new FileInputStream("myfile.html");
ContentHandler handler = new BodyContentHandler();
Metadata metadata = new Metadata();
new HtmlParser().parse(input, handler, metadata, new ParseContext());
String plainText = handler.toString();
El BodyContentHandler, cuando se creó sin argumentos al constructor o con un límite de caracteres, capturará el texto (sólo) del cuerpo de la html y lo devolverá al cliente .
+0
Se dijo, gracias. –
1
También puede usar Tika AutoDetectParser para analizar cualquier tipo de archivos como HTML. Aquí es un simple ejemplo de ello:
try {
InputStream input = new FileInputStream(new File(path));
ContentHandler textHandler = new BodyContentHandler();
Metadata metadata = new Metadata();
AutoDetectParser parser = new AutoDetectParser();
ParseContext context = new ParseContext();
parser.parse(input, textHandler, metadata, context);
System.out.println("Title: " + metadata.get(metadata.TITLE));
System.out.println("Body: " + textHandler.toString());
} catch (FileNotFoundException e) {
e.printStackTrace();
} catch (IOException e) {
e.printStackTrace();
} catch (SAXException e) {
e.printStackTrace();
} catch (TikaException e) {
e.printStackTrace();
}
Cuestiones relacionadas
- 1. Analizador HTML valida las etiquetas
- 2. Extraer todas las imágenes de HTML con JAVA
- 3. Cómo usar el analizador HTML para obtener información completa sobre todas las etiquetas en la página HTML
- 4. Excluyendo todas las etiquetas HTML con HTML agilidad Paquete
- 5. Extraer y limpiar fragmento de HTML utilizando el analizador HTML (org.htmlparser)
- 6. TinyMce Permitir todas las etiquetas Html
- 7. Eliminación de etiquetas HTML en Java
- 8. Analizador HTML
- 9. Analizando html con el analizador SAX
- 10. Crear un gran analizador - Extraer texto relevante de HTML/Blogs
- 11. Analizador HTML para GAE
- 12. Cerrar todas las etiquetas IMG no cerradas HTML
- 13. Problema con la expresión regular para eliminar las etiquetas HTML
- 14. regexp para etiquetas html con Matlab
- 15. etiquetas html en las etiquetas de opción
- 16. Cómo configurar Apache Tika con Apache Solr 1.4.1
- 17. ¿Cómo puedo usar HTML Agility Pack para recuperar todas las imágenes de un sitio web?
- 18. Quitar todas las etiquetas HTML, excepto los enlaces
- 19. HTML para Java
- 20. ¿cuál es el mejor analizador html para java?
- 21. ¿Cómo puedo quitar las etiquetas HTML en C#
- 22. Localización con etiquetas HTML
- 23. Jquery: Tira todas las etiquetas HTML específicas de cadena
- 24. ¿Cómo puedo filtrar todas las etiquetas HTML, excepto una determinada lista blanca?
- 25. Quitar/reemplazar las etiquetas HTML en bash
- 26. Eliminar todas las etiquetas de javascript y las etiquetas de estilo de html con python y el módulo lxml
- 27. ¿Cómo extraer el contenido de las etiquetas html de una cadena usando javascript o jquery?
- 28. ¿Cómo usar expresiones regulares para analizar HTML en Java?
- 29. Cómo analizar HTML para modificar todas las palabras
- 30. Cómo eliminar las etiquetas HTML, no el contenido en Vim
echar un vistazo al ejemplo que puede ayudarle a http://blog.jeroenreijn.com/2010/04/metadata-extraction-with-apache-tika.html – Lalchand