Estoy trabajando en un programa que descarga páginas HTML y luego selecciona parte de la información y la escribe en otro archivo.Extracción de texto de HTML Java
Quiero extraer la información que está entre las etiquetas de párrafo, pero solo puedo obtener una línea del párrafo. Mi código es el siguiente;
FileReader fileReader = new FileReader(file);
BufferedReader buffRd = new BufferedReader(fileReader);
BufferedWriter out = new BufferedWriter(new FileWriter(newFile.txt));
String s;
while ((s = br.readLine()) !=null) {
if(s.contains("<p>")) {
try {
out.write(s);
} catch (IOException e) {
}
}
}
yo estaba tratando de añadir otro bucle while, que decirle al programa para escribir en el archivo hasta que la línea contiene la etiqueta </p>
, diciendo;
while ((s = br.readLine()) !=null) {
if(s.contains("<p>")) {
while(!s.contains("</p>") {
try {
out.write(s);
} catch (IOException e) {
}
}
}
}
Pero esto no funciona. ¿Podría alguien ayudarme por favor?
Definitivamente estamos viendo un error en el escape de SO de las etiquetas HTML. – Yishai
¿Los está citando como código con palos de retroceso? – pjp
Los analizadores HTML existen y hay muchos de ellos. –