Tengo una página web asp.net que tiene una caja TinyMCE. Los usuarios pueden formatear texto y enviar el HTML para que se almacene en una base de datos.¿Cómo puedo eliminar HTML de texto en .NET?

En el servidor, me gustaría quitar el html del texto para poder almacenar solo el texto en una columna indexada de texto completo para buscar.

Es fácil quitar el html en el cliente usando la función text() de jQuery, pero realmente preferiría hacerlo en el servidor. ¿Hay utilidades existentes que pueda usar para esto?

EDIT

Ver mi respuesta.

EDITAR 2

alt text http://tinyurl.com/sillychimp

Fuente

2009-08-28 Ronnie Overby

¿Por qué usar TinyMCE si sólo vaya a eliminar todo el formato ?! –

Estoy almacenando el html generado por TinyMCE para poder presentar el texto formateado a los usuarios. Voy a almacenar el texto html-stripped en una columna diferente para la búsqueda de texto completo. No creo que sea una buena idea indexar/buscar texto completo en una columna que contenga una tonelada de HTML. No incluí estos detalles en la pregunta original, porque no tiene nada que ver con mi problema. –

+1 por hacerme reír con este mono –

he descargado el HtmlAgilityPack y creé esta función:

string StripHtml(string html) 
{ 
    // create whitespace between html elements, so that words do not run together 
    html = html.Replace(">","> "); 

    // parse html 
    var doc = new HtmlAgilityPack.HtmlDocument(); 
    doc.LoadHtml(html); 

    // strip html decoded text from html 
    string text = HttpUtility.HtmlDecode(doc.DocumentNode.InnerText); 

    // replace all whitespace with a single space and remove leading and trailing whitespace 
    return Regex.Replace(text, @"\s+", " ").Trim(); 
}

Fuente

2009-08-28 21:07:58

Eche un vistazo a richardtallent comentario a su respuesta. –

Ahora eche un vistazo. –

Lo vi. Creo que me quedaré con las 5 líneas de código que he escrito. –

Tome un vistazo a este Strip HTML tags from a string using regular expressions

Fuente

2009-08-28 19:59:50 riotera

una mejor idea sería utilizar un analizador html. – mkoryak

¿por qué si una simple expresión regular hace el trabajo? – riotera

@mkoryak: ¿Podría explicar por qué sería mejor? –

Puede usar algo como esto

string strwithouthtmltag;  
strwithouthtmltag = Regex.Replace(strWithHTMLTags, "<[^>]*>", string.Empty)

Fuente

2009-08-28 20:07:14 Nirlep

Si se acaba de almacenar texto para la indexación a continuación, es probable que desee para hacer un poco más que simplemente eliminar el HTML, como ignorar palabras de finalización y eliminar palabras más cortas que (digamos) 3 caracteres. Sin embargo, una etiqueta simple y separador Una vez escribí algo parecido a esto:

public static string StripTags(string value) 
    { 
     if (value == null) 
      return string.Empty; 

     string pattern = @"&.{1,8};"; 
     value = Regex.Replace(value, pattern, " "); 
     pattern = @"<(.|\n)*?>"; 
     return Regex.Replace(value, pattern, string.Empty); 
    }

Es viejo y estoy seguro de que puede ser optimizado (tal vez mediante un reg-ex compilado?). Pero funciona y puede ayudar ...

Fuente

2009-08-28 20:19:33

Usted podría:

Usar un área de texto simple y llano (estilo de altura/anchura/fuente/etc.) En lugar de TinyMCE.
Utilice las opciones de configuración integradas de TinyMCE para pelar HTML no deseado.
Utilice HtmlDecode (RegEx.Replace (mystring, "< [^>] +>", "") en el servidor.

Fuente

2009-08-28 20:20:52 richardtallent

Aquí hay enlace de código RefactorMe de Jeff Atwood por su Sanitize HTML method

Fuente

2009-08-28 20:31:31

Y así es como equilibra las etiquetas para que no termine con el contenido de usuario de alguien al cerrar un div en su página que no se abrió: http: // refactormycode .com/codes/360-balance-html-tags – StriplingWarrior

Como es posible que tenga HTML con formato incorrecto en el sistema: BeautifulSoup o similares podrían usado.

Está escrito en Python; No estoy seguro de cómo se podría interconectar, utilizando el lenguaje .NET IronPython.

Fuente

2009-08-28 21:23:02

Puede utilizar HTQL COM, y consultar el origen de una consulta: <cuerpo> &tx;

Fuente

2010-05-10 14:37:17 seagulf

TextReader tr = new StreamReader(@"Filepath"); 
string str = tr.ReadToEnd();  
str= Regex.Replace(str,"<(.|\n)*?>", string.Empty);

pero es necesario tener un espacio de nombres que se hace referencia.e:

system.text.RegularExpressions

sólo tienen esta lógica para su sitio web

Fuente

2012-01-31 19:11:33

RegEX no es la elección ideal para analizar RegEx. Vea los comentarios a la respuesta de RioTera, pero si no tiene formato HTML, RegEx eliminará los datos incorrectos. – psubsee2003

¿Cómo puedo eliminar HTML de texto en .NET?

EDIT

EDITAR 2

Respuesta

Cuestiones relacionadas