Python y la normalización de caracteres

Hola recupero de datos basado en texto UTF-8 de una fuente externa que contiene caracteres especiales como u"ıöüç" mientras que yo quiero normalizarlos a Inglés como "ıöüç" ->"iouc". ¿Cuál sería la mejor manera de lograr esto?Python y la normalización de caracteres

Fuente

2010-11-12 Hellnar

Buscar y reemplazar tal vez, usted tiene que tener un arsenal completo de especial para caracteres normales sin embargo. – soulseekah

recomiendo el uso de Unidecode module:

>>> from unidecode import unidecode 
>>> unidecode(u'ıöüç') 
'iouc'

Nota cómo se alimenta una cadena Unicode y se da salida a una cadena de bytes. La salida está garantizada para ser ASCII.

Fuente

2010-11-12 08:10:23 Constantin

Nice one +1 http://pypi.python.org/pypi/Unidecode/0.04.1 – soulseekah

import unicodedata 
unicodedata.normalize()

http://docs.python.org/library/unicodedata.html

Fuente

2010-11-12 08:05:52 soulseekah

Estoy un poco confundido: He intentado imprimir unicodedata.normalize ('NFKD', u "ıöüç") y la salida es de nuevo: ıöüç – Hellnar

Pruebe los otros valores válidos 'NFC', 'NFKC', 'NFD' y 'NFKD'. – soulseekah

Estoy bastante seguro de que esta es una operación diferente a la que busca el asker. Pero sí, esto es normalización Unicode. Lo que está preguntando no suele ser referido como tal. – drxzcl

Todo depende de qué tan lejos desee transitar el resultado. Si desea convertir todo en ASCII (αβγ a abg), entonces unidecode es el camino a seguir.

Si lo que desea es eliminar los acentos de las letras acentuadas, entonces usted podría intentar descomponer la cadena utilizando el formulario de normalización NFKD (esto convierte la letra acentuada á a una carta normal a seguido por U+0301 COMBINING ACUTE ACCENT) y luego desechar los acentos (que pertenecen al Unicode character classMn - "Marcar, no espaciar").

import unicodedata 

def remove_nonspacing_marks(s): 
    "Decompose the unicode string s and remove non-spacing marks." 
    return ''.join(c for c in unicodedata.normalize('NFKD', s) 
        if unicodedata.category(c) != 'Mn')

Fuente

2010-11-12 11:41:27

La forma más sencilla que he encontrado:

unicodedata.normalize('NFKD', s).encode("ascii", "ignore")

Fuente

2017-04-12 20:54:04 Sylvain

Python y la normalización de caracteres

Respuesta

Cuestiones relacionadas