2011-05-13 17 views
9

HtmlUnit para Java es genial, pero no he podido averiguar cómo ver la fuente completa o devolver la fuente de un sitio web como una cadena. ¿Puede alguien ayudarme con esto?HtmlUnit para ver la fuente

Sé que el follow leerá el sitio, pero ahora solo quiero devolver el código fuente a una cadena.

HtmlPage mySite = webClient.getPage("http://mysite.com"); 

¡Gracias!

Respuesta

12

De mirar a través de la API, mi pensamiento sería:

mySite.getWebResponse().getContentAsString(); 
+0

el método 'toString()' definitivamente no funcionará, aunque no estoy seguro del segundo. Parece que podría funcionar, pero nunca lo he intentado. –

+0

mySite.getWebResponse(). GetContentAsString(); ¡trabajos! ¡devuelve toda la fuente como si eligiera "ver fuente" desde el menú contextual de la página! ¡Gracias! –

+2

Eso es lo que hace el método 'asXml()' en HtmlPage. Esta puede ser la respuesta "aceptada", pero esa no es la forma en que HtmlUnit pretendía que usted obtuviera esa información. –

2

han intentado mySite.asXml()? O se puede hacer mySite.getDocumentElement().toString()

14
String pageSource = myPage.asXml(); 

que les permite conocer la fuente HTML de la página web.

String pageText = myPage.asText(); 

que les permite conocer todo el texto visible en la página, incluyendo saltos de línea/espacio en blanco. Sería lo mismo si estuviera en la página en su navegador y Ctrl+A luego Ctrl+V en una variable.