cómo convertir texto HTML a texto sin formato?

amigo Tengo que analizar la descripción de la url, donde el contenido analizado tiene pocas etiquetas html, así que ¿cómo puedo convertirlo a texto sin formato.cómo convertir texto HTML a texto sin formato?

Fuente

2010-08-31 MGSenthil

¿Cuáles son sus requisitos precisos? ¿Necesita quitar etiquetas HTML? Extrae el contenido de una etiqueta específica? –

puedo capaz de extraer el contenido, pero el contenido tiene

zcc dsdfsf ddfdfsf

sfdfdfdfdf, como el de arriba me estoy poniendo mis datos pero necesito ser un simple llano text.without esas etiquetas html – MGSenthil

pregunta similar con buena respuesta aquí: http://stackoverflow.com/questions/1518675/open-source-java-library-for-html-to-text-conversion/1519726#1519726. Usé Jericho y funciona bien. –

Utilizar un analizador de HTML como htmlCleaner

Por respuesta detallada: How to remove HTML tag in Java

Fuente

2010-08-31 10:06:09 ankitjaininfo

lo recomiendo analizar el HTML puro a través jTidy que debería darle salida que se puede escribir expresiones XPath. Esta es la forma más robusta que he encontrado de raspar HTML.

Fuente

2010-08-31 10:07:22

Sólo deshacerse de las etiquetas HTML es simple:

// replace all occurrences of one or more HTML tags with optional 
// whitespace inbetween with a single space character 
String strippedText = htmlText.replaceAll("(?s)<[^>]*>(\\s*<[^>]*>)*", " ");

Pero, por desgracia los requisitos no son tan simples:

Por lo general, <p> y <div> elementos necesitan un manejo separado, puede haber bloques CDATA con > caracteres (p. Ej., Javascript) que estropean la expresión regular, etc.

Fuente

2010-08-31 10:58:45

¡Bien, aclaraste toda esa complejidad! – ankitjaininfo

Para obtener información general sobre por qué esto no funcionará para el caso general, y no será f (u | oo) l-proof: [Etiquetas abiertas de ajuste de RegEx excepto etiquetas autocontenidas XHTML] (http://stackoverflow.com/questions/1732348/regex-match-open-tags-except-xhtml-self-contained-tags) –

Puede utilizar esta única línea para eliminar las etiquetas html y mostrarla como texto sin formato.

htmlString=htmlString.replaceAll("\\<.*?\\>", "");

Fuente

2010-09-03 10:16:40 Kandha

Si desea analizar como en la pantalla del navegador, utilice:

import net.htmlparser.jericho.*; 
import java.util.*; 
import java.io.*; 
import java.net.*; 

public class RenderToText { 
    public static void main(String[] args) throws Exception { 
     String sourceUrlString="data/test.html"; 
     if (args.length==0) 
      System.err.println("Using default argument of \""+sourceUrlString+'"'); 
     else 
      sourceUrlString=args[0]; 
     if (sourceUrlString.indexOf(':')==-1) sourceUrlString="file:"+sourceUrlString; 
     Source source=new Source(new URL(sourceUrlString)); 
     String renderedText=source.getRenderer().toString(); 
     System.out.println("\nSimple rendering of the HTML document:\n"); 
     System.out.println(renderedText); 
    } 
}

espero que esto ayudará a analizar tabla también en el formato de navegador.

Gracias, Ganesh

Fuente

2016-11-14 12:34:51

¿Pueden los downvoters explicar por qué votaron negativamente? – koppor

cómo convertir texto HTML a texto sin formato?

Respuesta

Cuestiones relacionadas