Python, nombre de unicodedata y valor de punto de código, ¿qué me falta?

Estoy tratando con caracteres de datos Unicode, y me pregunto por qué algunos no tienen ningún nombre en Unicodedata? Aquí hay un código de muestra donde puede consultar el <unknown>Python, nombre de unicodedata y valor de punto de código, ¿qué me falta?

. Creo que todos los caracteres dentro de la base de datos Unicode fueron nombrados, por cierto, hay todos de la misma categoría que es [Cc] Other, Control.

Otra pregunta: ¿cómo puedo obtener el valor del punto de código Unicode? ¿Es ord(unicodechar) que hace el truco?

También puse el archivo here (como la codificación es algo raro), y porque creo que mi corte n 'pegar con carácter' invisible 'puede ser con pérdida.

#!/bin/env python 
# -*- coding: utf-8 -*- 

#extracted and licensing from here: 
""" 
:author: Laurent Pointal <[email protected]> <[email protected]> 
:organization: CNRS - LIMSI 
:copyright: CNRS - 2004-2009 
:license: GNU-GPL Version 3 or greater 
:version: $Id$ 
""" 

# Chars alonemarks: 
#   !?¿;,*¤@°:%|¦/()[]{}<>«»´`¨&~=#±£¥$©®" 
# must have spaces around them to make them tokens. 
# Notes: they may be in pchar or fchar too, to identify punctuation after 
#  a fchar. 
#  \202 is a special , 
#  \226 \227 are special - 
alonemarks = u"!?¿;,\202*¤@°:%|¦/()[\]{}<>«»´`¨&~=#±\226"+\ 
    u"\227£¥$©®\"" 
import unicodedata 
for x in alonemarks: 
    unicodename = unicodedata.name(x, '<unknown>') 
    print "\t".join(map(unicode, (x, len(x), ord(x), unicodename, unicodedata.category(x)))) 

    # unichr(int('fd9b', 16)).encode('utf-8') 
    # http://stackoverflow.com/questions/867866/convert-unicode-codepoint-to-utf8-hex-in-python

Fuente

2012-04-27 user1340802

pensé que todos los caracteres dentro de la base de datos Unicode se nombró

No, los caracteres de control no lo hacen tienen nombres, ver UnicodeData archivo

otra pregunta, es ¿cómo puede obtengo el valor del punto de código Unicode? es ORD (unicodechar)

sí!

print '%x' % ord(unicodedata.lookup('LATIN LETTER SMALL CAPITAL Z')) 
## 1d22

Fuente

2012-04-27 10:09:55 georg

errr, no, es 'ord', no' ORD' –

supe habrá alguien ... – georg

bien, que gracias :) (sí de hecho, he escrito en mayúsculas, pero sabía que no era) – user1340802

Según unicodedata biblioteca documentation,

El módulo utiliza los mismos nombres y símbolos definidos por el unicodedata 5.2.0 Formato de archivo (ver here)

su hijo de dos los caracteres muestran la siguiente salida:

1 150 <unknown> Cc 
1 151 <unknown> Cc

corresponden a los caracteres de control puntos 0x96 y 0x97 La documentación Unicode anterior estipula en the code point paragraph que:

puntos de código sustituta, personajes de uso privado, códigos de control, noncharacters, y los puntos de código no asignados no tienen nombre .

No sé cómo obtener la etiqueta de comentario correspondiente a los comentarios a través de Unicode unicodedata módulo, pero creo que no obtiene ningún nombre para sus dos caracteres de control, ya que se define de esa manera por la norma Unicode .

Fuente

2012-04-27 10:24:41 Boud

gracias por su respuesta :) he aceptado el de THG435 porque fue el primero, pero me gustaría aceptar el suyo también. Mejor. – user1340802

Python, nombre de unicodedata y valor de punto de código, ¿qué me falta?

Respuesta

Cuestiones relacionadas