Cadenas de prueba Unicode para pruebas unitarias

Necesito algunas cadenas de prueba Utf32 para ejercer algún código de manipulación de cadenas multiplataforma. Me gustaría un conjunto de cadenas de prueba que utilicen las codificaciones utf32 < -> utf16 < -> utf8 para validar que los caracteres fuera de BMP se puedan transformar de utf32, a través de los substitutos utf16, a través de utf8 y viceversa. correctamente.Cadenas de prueba Unicode para pruebas unitarias

Y siempre me resulta un poco más elegante si las cadenas en cuestión no están compuestas solo de bytes aleatorios, sino que son realmente significativas en los (varios) idiomas que codifican.

Fuente

2011-05-26 Chris Becke

Aunque esto no es exactamente lo que usted pidió, siempre he encontrado esta prueba documento útil.

http://www.cl.cam.ac.uk/~mgk25/ucs/examples/UTF-8-test.txt

El mismo sitio ofrece este

http://www.cl.cam.ac.uk/~mgk25/ucs/examples/quickbrown.txt

... que son equivalentes de texto "zorro marrón rápido" de Inglés, que ejercen todos los caracteres utilizados, para una variedad de idiomas . Esta página se refiere a una lista más grande de "pangramas" que solía estar en Wikipedia, pero aparentemente fue eliminada allí.Todavía está disponible aquí:

http://clagnut.com/blog/2380/

Fuente

2011-07-30 02:22:38 tialaramex

¡eso es exactamente lo que estaba buscando! –

El documento de quickbrown.txt se refiere a una lista más exhumante en Wiki, pero eso se ha eliminado. Sin embargo, está [aquí] (http://clagnut.com/blog/2380/). – TinyRacoon

-1

Hmmm

Se puede encontrar una gran cantidad de datos incidentales por google (y vea la columna derecha para preguntas como éstas en SO ...)

Sin embargo, recomiendo que construir más o menos sus cadenas de prueba como matriz de bytes. En realidad, no se trata de "qué datos", solo que el Unicode se maneja correctamente.

E.g. querrá asegurarse de que las cadenas idénticas en diferentes formas normalizadas (es decir, incluso si no están en forma canónica) todavía se comparen por igual.

Querrá comprobar que la detección de longitud de cadena es robusta (y reconoce caracteres de bytes simples, dobles, triples y cuádruples). Querrá comprobar que atravesar una cadena de principio a fin respeta la misma lógica. Pruebas más específicas para el acceso aleatorio de caracteres Unicode.

Estas son todas las cosas que usted sabía, estoy seguro. Estoy deletreándolos para recordarle que necesita datos de prueba atendidos exactamente en los casos extremos, las propiedades lógicas que son intrínsecas a Unicode.

Solo entonces tendrá los datos de prueba adecuados.

Más allá de este ámbito de aplicación (manejo Unicode correcta técnica) es la localización real (intercalación, charset conversión etc.). Me refiero a la prueba de Turquía

Éstos son enlaces de ayuda:

Fuente

2011-05-26 11:02:33 sehe

-1

Si usted no necesita nada tan amplia como los casos de prueba http://www.cl.cam.ac.uk/~mgk25/ucs/examples/UTF-8-test.txt, la siguiente herramienta es útil para crear un puñado de casos de prueba de interés:

http://rishida.net/tools/conversion/

Por ejemplo:

// point UTF-16  UTF-8 
// U+007A 007A  7A 
// U+6C34 6C34  E6 B0 B4 
// U+10000 D800 DC00 F0 90 80 80 
// U+1D11E D834 DD1E F0 9D 84 9E 
// U+10FFFD DBFF DFFD F4 8F BF BD

Fuente

2012-09-12 18:44:34 devx

-1

Usted puede intentar este (hay algunos sen competen- en ruso, griego, chino, etc. para poner a prueba Unicode):

http://www.madore.org/~david/misc/unitest/

Fuente

2012-11-08 20:14:06

-1

Para probar realmente todas las posibles conversiones entre formatos, que se oponen a las conversiones de caracteres (es decir, towupper(), towlower()) debe probar todos los caracteres. El siguiente bucle que nos da a todos los que:

for(wint_t c(0); c < 0x110000; ++c) 
{ 
    if(c >= 0xD800 && c <= 0xDFFF) 
    { 
     continue; 
    } 
    // here 'c' is any one Unicode character in UTF-32 
    ... 
}

De esa manera usted puede asegurarse de que no se pierda nada (ensayo completo es decir, 100%). Esto es sólo 1.112.065 caracteres, por lo que será muy rápido con una computadora moderna.

Fuente

2014-06-15 21:01:56

Cadenas de prueba Unicode para pruebas unitarias

Respuesta

Cuestiones relacionadas