2012-07-09 18 views
5

Duplicar posibles:
What is the best free way to clean up Word HTML?
PHP to clean-up pasted Microsoft inputRetire MS Word "HTML" usando PHP

que permiten a los clientes para introducir notas en un editor de texto enriquecido, y sólo recientemente se ha actualizado a ckEditor 3x, que elimina las clases de palabras MS, los estilos y los comentarios de forma predeterminada (cuando los usuarios pegan en el objeto editor). Así que avanzando ya estoy listo.

Recientemente he tenido la necesidad de limpiar 5 años de notas, algunas de las cuales tienen incrustado HTML escrito en MS Word. Necesito recorrer este cuerpo de texto y limpiarlo.

No necesito quitar todas las etiquetas de span, solo aquellas identificadas como escritas por Microsoft.

He intentado usar HTMLCleaner, pero no está eliminando el código HTML generado por MS. http://word2cleanhtml.com hace exactamente lo que yo quiero, sin embargo, los desarrolladores actualmente no están ofreciendo la API para uso público (desde el 9 de julio de 2012).

He buscado una clase así de vez en cuando durante las últimas semanas y no estoy teniendo mucha suerte. ¿Alguno de ustedes ha encontrado una clase útil que le gustaría compartir?

+0

Para aclarar, necesito una clase de servidor que pueda incrustar en mi aplicación existente. Hay algunas herramientas EXCELENTES en las preguntas/respuestas de SO mencionadas por Mario, sin embargo, estoy descubriendo que están diseñadas para conversiones de un solo uso en su mayor parte, o usando curl para publicar en su sitio web. No se puede hacer eso con PHI. –

+0

Mario, ¿dónde se han ido tus URL? Fueron útiles, y parte de mi justificación para el cierre. Deberían ser útiles para que el OP haga la limpieza HTML también usando un script retrospectivo. – halfer

+0

Espero que esta pregunta quede disponible, ya que la respuesta de maxhud a continuación dirige mi pregunta a un T. htmlpurifier es una clase, no un sitio web al que los usuarios navegan y cargan. –

Respuesta

Cuestiones relacionadas