2011-01-21 28 views
6

Tengo que extraer algo de información de una página web y reformatearla para el usuario.Analizando HTML desde una página web

Dado que la página web es bastante regular, ahora uso HttpClient para recuperar el HTML como una cadena, y extraigo las subcadenas en ubicaciones determinadas con los datos relevantes.

De todos modos, me pregunto si hay una mejor manera, tal vez una forma de HTML-aware. ¿Como lo harias?

Saludos

+0

posible duplicado de [Java HTML Parsing] (http://stackoverflow.com/questions/238036/java-html-parsing) –

+0

http://stackoverflow.com/questions/4623427/html-parsing-using-java –

+0

http://stackoverflow.com/questions/4614211/java-html-parsing –

Respuesta

7

Idealmente, usted debe utilizar un verdadero analizador HTML. He usado Jsoup con éxito en el pasado en Android:

http://jsoup.org/

1

Hemos utilizado HttpUnit no hacer esto en el pasado.

1

jsoup.org es mejor pero Cobra también tienen algunas características adicionales (compatibles con CSS y JavaScript).

Cuestiones relacionadas