2011-11-21 24 views
5

Tengo archivos PDF en árabe y parece que hay algo mal en su codificación.Corregir la codificación PDF

Cuando trato de buscar en el archivo PDF por palabra dentro de él, no se encontró resultados

cuando intento exportar el contenido de PDF a Excel usando otros programas que exportar datos en una codificación extraña

Cuando copio los datos en el PDF en el bloc de notas, el Bloc de notas muestra una codificación extraña.

Estoy desarrollando una solución que utilizará estos archivos PDF (aproximadamente 950 archivos) por lo que debo encontrar una forma de corregir la codificación.

Gracias de antemano

+0

¿Podría compartir un enlace a uno de sus archivos? – Bobrovsky

Respuesta

1

responsabilidad: yo nunca he editado un archivo de árabe.

¿Cómo exportó los contenidos .pdf a Excel?

Usted no puede abre directamente un archivo .pdf ni con Word/Excel/Wordpad ni el Bloc de notas, que extraña codificación que se está viendo más probable es la codificación específica de un recurso de la fuente seleccionada.

Puede utilizar esta herramienta this para detectar la codificación

pero realmente aconsejo que lea el mínimo sobre Unicode and Character Sets

A partir de entonces, teniendo en cuenta la cantidad de archivos involucrados, un buen solución parece ser PyODConverter

para una menor cantidad de archivos, Free PDF to Word Converter se hará cargo de su ne eds:

+0

Querido Joao, Mi problema principal es arreglar un archivo PDF, cuando lo abro en cualquier lector de PDF lo puedo leer fácilmente pero cuando busco una palabra veo que me dice "no se encontraron resultados" –

+1

Pero ya has confirmado qué ¿Están codificando esos .pdf? Marque esta pregunta, quizás lo ponga en la pista: http://superuser.com/questions/119393/search-pdfs-with-non-standard-character-encodings –

+0

sí, esto es exactamente mi situación, gracias –

Cuestiones relacionadas