Quiero extraer un par de enlaces de una página html descargada de Internet, creo que usar linq para XML sería una buena solución para mi caso.
Mi problema es que no puedo crear un XmlDocument del HTML, usando Carga (String url) no funcionó lo que he descargado el html en una cadena mediante:¿Cómo se lee HTML como XML?
public static string readHTML(string url)
{
HttpWebRequest req = (HttpWebRequest)WebRequest.Create(url);
HttpWebResponse res = (HttpWebResponse)req.GetResponse();
StreamReader sr = new StreamReader(res.GetResponseStream());
string html = sr.ReadToEnd();
sr.Close();
return html;
}
cuando intento cargar ese cadena usando LoadXml (cadena XML) consigo la excepción
'--' is an unexpected token. The expected token is '>'
¿Por qué camino debo tomar para leer el archivo html en un XML parsable
HTML no tiene que ser necesariamente una válida XML. HTML se basa en SGML, que a su vez es un superconjunto (tipo de) de XML. Por lo tanto, necesita un analizador HTML especial, no un analizador XML genérico. –
Más de lo mismo de las respuestas a continuación y comentario anterior. HTML no es XML –