Estoy procesando algunos archivos de datos que se supone que son UTF-8 válidos pero no lo son, lo que hace que el analizador (que no estoy bajo mi control) falle. Me gustaría agregar una etapa de validación previa de los datos para la formación correcta de UTF-8, pero aún no he encontrado una utilidad que me ayude a hacer esto.¿Cómo comprobar si un archivo es válido UTF-8?
Hay una web service en el W3C, que parece que está muerto, y he encontrado un sólo para Windows validación tool que los informes no válidos ficheros UTF-8, pero no informa qué líneas de caracteres y/o solucionar.
Estaría contento con una herramienta que pueda instalar y usar (idealmente multiplataforma), o una secuencia de comandos ruby / perl que pueda formar parte de mi proceso de carga de datos.
En las versiones anteriores de iconv, como la de OSX o en fink, no hay indicador -o. Sin embargo, redireccionar la salida estándar siempre debería funcionar. –
Torsten, gracias esto funciona perfectamente en mi máquina Linux. No pude encontrar una versión de la utilidad iconv para cygwin, pero eso no es sorprendente. –
no detecta todos los problemas ... – zvolkov