Yo sé que esto es una cuestión de edad, sino alguien que pueda necesitar
introducción "bastante obvio":
archivos PDF son gráficos corriente de objeto (por ejemplo líneas) y texto. Cuando se renderiza el PDF, el ojo humano comprende que hay tablas debido a las líneas y el texto entre ellos.
La (mi) la solución
A partir de un lector de PDF (iTextSharp) es necesario: 1.
leer las líneas (con suerte sólo las líneas verticales y horizontales);
2. une las líneas (una línea de una tabla podría tener varias líneas, por ejemplo, una por celda);
3. entender dónde están las tablas (a veces haciendo algunas hipótesis en función de sus necesidades);
4.opcionalmente encuentre el texto fuera de las tablas (mejor para guardar todo el texto) e insértelo en párrafos;
5. Insertar texto dentro de las celdas de la tabla
Si necesitas algo ya escrito a partir de (trabajando para mis archivos PDF) se puede encontrar algo aquí https://github.com/bubibubi/ExtractTablesFromPdf
Utiliza la versión GPL de iTextSharp.
Esto podría ajustarse mejor a Stackoverflow. –
Usted sabe que los archivos PDF son texto claro y usted puede analizar esta información en su nombre ¿no? – CrazyDart