Unicode y Javascript: secuencias de bytes no válidas

Algunas secuencias de bytes son aparentemente inválidas en las codificaciones Unicode, y sé que algunos lenguajes (Python para uno) arrojan un error cuando eso sucede.Unicode y Javascript: secuencias de bytes no válidas

Mi pregunta es: ¿qué ocurre en Javascript al recibir una secuencia de este tipo durante un XMLHttpRequest o XDomainRequest? ¿La cadena resultante:

¿Se truncan cuando eso sucede?
¿Saltar la secuencia incorrecta y comenzar en el siguiente byte (s)?
¿Continúa la decodificación y solo muestra el carácter replacement de reemplazo cuando se muestra?

Si 3, ¿la función charCodeAt devuelve un código de carácter válido?

Fuente

2012-10-05 F.X.

Pasa el número 3. Muestra el cuando se muestra, y charCodeAt devuelve 0xFFFD, el carácter unicode.

Fuente

2012-10-05 21:09:39 saml

OK, gracias, eso era lo que estaba buscando. Para el registro, simplemente lo confirmé usando [esta página] (http://www.cl.cam.ac.uk/~mgk25/ucs/examples/UTF-8-test.txt) e iterando a través de 'charCodeAt' valores. –

Un gran recurso de prueba: http://www.cl.cam.ac.uk/~mgk25/ucs/examples/UTF-8-test.txt – saml

Unicode y Javascript: secuencias de bytes no válidas

Respuesta

Cuestiones relacionadas