2010-01-19 13 views
5

Así que tienen archivos ....¿Es posible extraer información Meta de archivos de MS Office y/o PDF con PHP?

.doc 
.docx 
.xls 
.xlsx 
and .pdf 

que están en el servidor de my.

¿Es posible (y si lo es, cómo) extraer los metadatos de esos archivos usando PHP? Estoy buscando cosas como Autor, palabras clave, título, etc ...

En documentos de oficina es la información almacenada junto con las propiedades del documento (Archivo ... Propiedades ... Resumen para 2003, Preparar .. .Propiedades para 2007).

En archivos PDF se encuentra la información en Propiedades del documento.

Esto es no en un servidor de Windows.

+0

Todo es posible en PHP, está completo. Sin embargo, una forma portátil y fácil de hacerlo es otra cuestión. – Earlz

Respuesta

2

He logrado extraer mucha información de Meta utilizando XPDF en un sistema Linux hace unos años. Hoy en día, sin embargo, yo diría que Zend_PDF es su mejor apuesta. No lo he usado, pero se ve bien y promete todo lo que necesita. Parece que no tiene dependencias de biblioteca, tampoco.

Para Word .DOCs, si no encuentra una manera mejor, conéctese a una línea de comandos/instancia de servidor de OpenOffice y conviértalos a ODT, que es XML y se puede analizar. Si no es posible extraer los metadatos por Macro, debería ser así, pero no sé cuánto trabajo hay. This OpenOffice Forum entry ofrece una gran cantidad de puntos de partida para la conversión automatizada.

Los ... formatos X son algún tipo de XML, por lo que debería ser posible obtener los metadatos de ellos. Alternativamente, también debería poder usar los filtros de conversión de OpenOffice aquí, si transportan los metadatos.

+0

Hasta ahora, todo bien - Zend_PDF hizo el truco para los PDF. - El siguiente paso son los documentos de la oficina. – Jason

+1

¡Agradable! Asegúrese de mantenernos actualizados, estoy seguro de que será útil para mucha gente. Quizás esto sea de interés adicional, o puede darte algunos consejos. http://meta-extractor.sourceforge.net/ –

Cuestiones relacionadas