Encontré this pregunta pero elimina todos los caracteres válidos utf-8
también (me devuelve una cadena en blanco, mientras que hay caracteres utf-8
válidos más los caracteres de control). Cuando leo sobre utf-8
, no hay un rango específico para control characters
y cada juego de caracteres tiene su propio control characters
.Eliminando caracteres de control de una cadena UTF-8
¿Cómo puedo modificar la solución above para eliminar solo control characters
?
ya sabes, con unas pocas líneas de código (¿qué es exactamente una cadena UTF-8?) Y una pequeña muestra del texto esta comenzaría a parecerse a una verdadera pregunta. –
cadena real es una cadena árabe 'utf-8' con algunos caracteres de punto y coma y control. He proporcionado un enlace a la pregunta más similar: http://stackoverflow.com/questions/20762/how-do-you-remove-invalid-hexadecimal-characters-from-an-xml-based-data-source -pr – Xaqron
¿Cómo se definen los caracteres de control? ¿Aquellos con codepoint '<32'? – CodesInChaos