Duplicar posibles:
What is the best free way to clean up Word HTML?
PHP to clean-up pasted Microsoft inputRetire MS Word "HTML" usando PHP
que permiten a los clientes para introducir notas en un editor de texto enriquecido, y sólo recientemente se ha actualizado a ckEditor 3x, que elimina las clases de palabras MS, los estilos y los comentarios de forma predeterminada (cuando los usuarios pegan en el objeto editor). Así que avanzando ya estoy listo.
Recientemente he tenido la necesidad de limpiar 5 años de notas, algunas de las cuales tienen incrustado HTML escrito en MS Word. Necesito recorrer este cuerpo de texto y limpiarlo.
No necesito quitar todas las etiquetas de span, solo aquellas identificadas como escritas por Microsoft.
He intentado usar HTMLCleaner, pero no está eliminando el código HTML generado por MS. http://word2cleanhtml.com hace exactamente lo que yo quiero, sin embargo, los desarrolladores actualmente no están ofreciendo la API para uso público (desde el 9 de julio de 2012).
He buscado una clase así de vez en cuando durante las últimas semanas y no estoy teniendo mucha suerte. ¿Alguno de ustedes ha encontrado una clase útil que le gustaría compartir?
Para aclarar, necesito una clase de servidor que pueda incrustar en mi aplicación existente. Hay algunas herramientas EXCELENTES en las preguntas/respuestas de SO mencionadas por Mario, sin embargo, estoy descubriendo que están diseñadas para conversiones de un solo uso en su mayor parte, o usando curl para publicar en su sitio web. No se puede hacer eso con PHI. –
Mario, ¿dónde se han ido tus URL? Fueron útiles, y parte de mi justificación para el cierre. Deberían ser útiles para que el OP haga la limpieza HTML también usando un script retrospectivo. – halfer
Espero que esta pregunta quede disponible, ya que la respuesta de maxhud a continuación dirige mi pregunta a un T. htmlpurifier es una clase, no un sitio web al que los usuarios navegan y cargan. –