Eliminar caracteres unicode de archivos de texto - sed, otros métodos bash/shell

¿Cómo elimino caracteres Unicode de un grupo de archivos de texto en el terminal? He intentado esto, pero no funcionó:Eliminar caracteres unicode de archivos de texto - sed, otros métodos bash/shell

sed 'g/\u'U+200E'//' -i *.txt

necesito para eliminar estos unicodes a partir de los archivos de texto

U+0091 - sort of weird "control" space 
U+0092 - same sort of weird "control" space 
A0 - non-space break 
U+200E - left to right mark

Fuente

2011-12-19 alvas

Qué es la codificación de los archivos de texto en? – unwind

Si desea eliminar los caracteres particulares solamente y tiene pitón, se puede:

CHARS=$(python -c 'print u"\u0091\u0092\u00a0\u200E".encode("utf8")') 
sed 's/['"$CHARS"']//g' </tmp/utf8_input.txt> /tmp/ascii_output.txt

Fuente

2011-12-19 14:19:43

Quizás no sea el más bonito. Pero funcionó muy bien para mí. Al construir la variable CHARS, hizo que el sed sea más fácil de leer, y la variable CHARS se puede mantener fácilmente. La respuesta de Choroba también funciona, así que supongo que es una cuestión de gusto (y si tienes a mano Python). – Paulb

Es un código alternativo de python parte'python -c 'print' '' .join (map (unichr, rango (0x80, 0xa0) + rango (0x2000, 0x200f))). Encode ("utf-8") ' ' –

en los últimos linux os'es puede escribir caracteres Unicode presionando Ctrl + Shift + u seguido del código numérico y , por ejemplo 'Ctrl + Shift + u 0019 ⏎' – smoebody

Uso iconv:

iconv -f utf8 -t ascii//TRANSLIT </tmp/utf8_input.txt> /tmp/ascii_output.txt

Esto se traducirá caracteres como "Š" en "S" (los que parecen más similares).

Fuente

2011-12-19 14:05:17

no son ascii, quiero mantenerlos en utf8 pero quiero reemplazar estos espacios extraños en cadena nula normal '" "' – alvas

Ver mi otra respuesta –

No era lo que el OP quería, pero tenía la necesidad de convertir unicode Separador de línea (u2028) en una nueva línea. Hubiera preferido usar iconv, pero no pude encontrar la manera de hacerlo. ¿Hay alguna manera? –

claros caracteres de todo no-ascii de file.txt

$ iconv -c -f utf-8 -t ascii file.txt 
$ strings file.txt

Fuente

2011-12-19 14:12:31 kev

Quiero mantener la codificación Unicode. lo siento, entonces iconv no es la solución. – alvas

¿Por qué no puedes simplemente ejecutarlo en reversa? tempf = $ (mktemp) iconv -c -f UTF-8 ascii -t archivo.txt> $ tempf iconv -f -t ASCII UTF-8 $ tempf> archivo.txt –

UTF-8 es un subconjunto del válida ASCII. La transformación inversa mantiene el archivo sin cambios. –

Para UTF-8 de Unicode, puede usar esta expresión regular para sed:

sed 's/\xc2\x91\|\xc2\x92\|\xc2\xa0\|\xe2\x80\x8e//'

Fuente

2011-12-19 14:26:23 choroba

¿cómo puedo encontrar la asignación de 'U + ...' a '\ xc2 \ ...'? – alvas

+18

'echo -ne '\ u0091' | xxd' – kev

Esto podría ser un buen comienzo - http://www.utf8-chartable.de/ –

Convertir archivos Swift de utf-8 a ASCII:

for file in *.swift; do 
    iconv -f utf-8 -t ascii "$file" > "$file".tmp 
    mv -f "$file".tmp "$file" 
done

swift auto completion not working in Xcode6-Beta

Fuente

2014-07-12 13:56:05 ma11hew28

Eliminar caracteres unicode de archivos de texto - sed, otros métodos bash/shell

Respuesta

Cuestiones relacionadas