Estoy tratando de ver un archivo html y eliminar todas las etiquetas para que solo quede el texto pero tengo un problema con mi expresión regular. Esto es lo que tengo hasta ahora.Eliminando etiquetas html de un texto utilizando Expresión regular en python
import urllib.request, re
def test(url):
html = str(urllib.request.urlopen(url).read())
print(re.findall('<[\w\/\.\w]*>',html))
El HTML es una página sencilla con unos pocos enlaces y el texto pero mi expresión regular no va a recoger DOCTYPE HTML PUBLIC "- // W3C // DTD HTML 4.01 Transitional // EN" y 'a href = "...." etiquetas. ¿Alguien puede explicar lo que necesito cambiar en mi expresión regular?
Problemas al analizar HTML con expresiones regulares, ¿dices? ¡Por qué, apenas puedo creerlo! ¡Quien lo hubiera pensado! ¡Qué novedades para los libros! PD. BeautifulSoup. – bobince
Mantenga la calma, bobince. Respira lentamente en la bolsa de papel. En, fuera, dentro, ... http://stackoverflow.com/questions/1732348/regex-match-open-tags-except-xhtml-self-contained-tags/1732454#1732454 – hughdbrown
Me encanta la regularidad con la que estas preguntas aparecen Es como si la parte "Buscar preguntas similares" del nuevo formulario de preguntas no funciona: D –