Así que analicé una página html con .findAll
(BeautifulSoup) a la variable llamada result
. Si escribo result
en terminal de Python continuación, pulse Intro, veo texto normal como se esperaba, pero como quería posprocesarlos este resultado como objeto de cadena, he notado que str(result)
retornos de basura, como este ejemplo:Cómo convertir BeautifulSoup.ResultSet a la cadena
\xd1\x87\xd0\xb8\xd0\xbb\xd0\xbd\xd0\xb8\xd1\x86\xd0\xb0</a><br />\n<hr />\n</div>
HTML la fuente de la página es utf-8
codificada
¿Cómo puedo manejar esto?
Código es básicamente esto, en caso de que importa:
from BeautifulSoup import BeautifulSoup
soup = BeautifulSoup(urllib.open(url).read())
result = soup.findAll(something)
Python es 2,7
muestra su código pls – cetver