2011-11-25 28 views
8

¿Cuál es la codificación oficial de la API de transmisión de Twitter? Mi mejor estimación es UTF-8 según lo que he visto, pero me gustaría evitar hacer suposiciones.¿Codificación oficial utilizada por Twitter Streaming API? ¿Es UTF-8?

La única parte del sitio de Twitter que he visto en los que incluso hacen alusión a lo que utilizan como su codificación oficial está aquí:

Twitter no quiere penalizar a un usuario por el hecho de que utilizamos UTF -8 o por el hecho de que el cliente API en cuestión se utiliza la representación ya

https://dev.twitter.com/docs/counting-characters

¿alguien tiene una más "oficial" como respuesta? Estoy escribiendo un tokenizador de máquina de estado para la API de transmisión que hace ciertas suposiciones. Lo último que quiero es encontrar algo como UTF-16.

Gracias! : D

Respuesta

4

Un indicador es que el JSON format, que Twitter usa para prácticamente todo, dicta (o al menos por defecto) UTF-8. Ellos deberían también establecer un encabezado HTTP apropiado que denote la codificación (pero no he confirmado esto). Si está utilizando XML en su lugar, la etiqueta de apertura XML denota explícitamente la codificación, que es UTF-8.

0

Si dicen que usan UTF-8, es una buena apuesta. UTF-8 es muy común, y UTF-16 en estado salvaje es bastante raro por lo que he visto.

También hay algunas librerías inteligentes que podría utilizar si tuviera la intención de probarlo probando si son compatibles con varios caracteres. El mejor de estos es utilizado por Firefox para detectar la codificación de páginas web a medida que se cargan: http://www-archive.mozilla.org/projects/intl/UniversalCharsetDetection.html