2010-07-13 24 views
7

Quiero convertir los datos en pdf en nuestras propias especificaciones de archivo. Así que por favor me ayuden a elegir la API correcta para el análisis de PDF usando java o .net. El análisis debe extraer todos y cada uno de los componentes (elementos) de las páginas PDF.PDF Parser API en Java

Respuesta

2

Hay una biblioteca llamada IText que hace lo que quiere. Es una especie de producto # 1 y es gratis como en la cerveza.

He trabajado anteriormente con IText, extrayendo contenido de archivos PDF, y aunque no es súper automático, te permite obtener todo.

Recomendado, en otras palabras.

+2

@Naimur está en AGPL, es posible que desee comprobar la compatibilidad de la licencia con su programa. –

+1

Además de eso, se requerirá la referencia en PDF para comprender el formato. Puede encontrarlo aquí (cargos de ISO, enlaces gratuitos al final de la página): http://www.adobe.com/devnet/pdf/pdf_reference.html – Stroboskop

+0

Muchas gracias carl ... De hecho, comencé a usar iText solo ... desea saber cómo obtener el texto que está en formato no legible (algunas estructuras de pdf complejas). También necesito obtener el tipo de formulario en pdf ya sea en forma de escaneo o en forma preimpresa o algo más .. Gracias de antemano. – Naimur

0

Los elementos no existen en el archivo PDF. Es un conjunto de Pdfobjects que generan las páginas.