Analizando una enorme secuencia HTML con Jsoup

¿Alguien puede ofrecer un puntero o un consejo sobre cómo abordaría el análisis de una secuencia/archivo HTML extremadamente grande? Por ejemplo, tengo una tabla con aproximadamente 270,000 filas, me gustaría incluirla en mi aplicación de 20k a la vez. El método jsoup parse permite fragmentos de HTML, pero no está claro para mí cuál puede ser la forma más eficiente y limpia de leer XXX bytes que representan este fragmento.Analizando una enorme secuencia HTML con Jsoup

Cualquier ayuda más apreciada.

Fuente

2012-09-26 rkd80

Si se trata de XHTML, y no es necesario que guarde todo en la memoria a la vez, una mejor opción sería utilizar un analizador SAX y seleccionar los datos que necesita utilizando los eventos de etiqueta de inicio y fin.

Otro pensamiento podría ser un analizador StAX.

Fuente

2012-09-26 20:57:12 duffymo

Sólo HTML normal. – rkd80

Analizando una enorme secuencia HTML con Jsoup

Respuesta

Cuestiones relacionadas