2012-09-26 33 views
5

¿Alguien puede ofrecer un puntero o un consejo sobre cómo abordaría el análisis de una secuencia/archivo HTML extremadamente grande? Por ejemplo, tengo una tabla con aproximadamente 270,000 filas, me gustaría incluirla en mi aplicación de 20k a la vez. El método jsoup parse permite fragmentos de HTML, pero no está claro para mí cuál puede ser la forma más eficiente y limpia de leer XXX bytes que representan este fragmento.Analizando una enorme secuencia HTML con Jsoup

Cualquier ayuda más apreciada.

Respuesta

0

Si se trata de XHTML, y no es necesario que guarde todo en la memoria a la vez, una mejor opción sería utilizar un analizador SAX y seleccionar los datos que necesita utilizando los eventos de etiqueta de inicio y fin.

Otro pensamiento podría ser un analizador StAX.

+0

Sólo HTML normal. – rkd80