Dado un enlace HTML comode descomposición del HTML para enlazar el texto y el objetivo
<a href="urltxt" class="someclass" close="true">texttxt</a>
cómo puedo aislar me la URL y el texto?
Actualizaciones
estoy usando sopa hermoso, y no puedo encontrar la manera de hacer eso.
lo hice
soup = BeautifulSoup.BeautifulSoup(urllib.urlopen(url))
links = soup.findAll('a')
for link in links:
print "link content:", link.content," and attr:",link.attrs
me sale
*link content: None and attr: [(u'href', u'_redirectGeneric.asp?genericURL=/root /support.asp')]* ...
...
Por qué me estoy perdiendo el contenido?
edición: elaborado en 'pegado' tal como se aconseja :)
Es probable que haya un problema con urllib.urlopen (url). Intenta imprimir eso y ver lo que obtienes. Debe ser el HTML directo de la página web. –
Además, "¡atascado!" no es muy descriptivo Mostrar más código y qué es exactamente lo que está mal. –
Gracias por la información adicional, hizo que fuera mucho más fácil ver lo que estaba sucediendo. –