2008-09-24 25 views
14

Recientemente aprendí sobre la estructura básica del archivo .docx (es un archivo zip especialmente estructurado). Sin embargo, docx no está formateado como un documento.¿Cómo funciona el formato .doc?

¿Cómo funciona un archivo doc? ¿Cuál es el formato de archivo, estructura, etc.?

+0

Es binario, y la especificación está disponible bajo los términos de [Promesa de especificación abierta de Microsoft] (http://en.wikipedia.org/wiki/Microsoft_Open_Specification_Promise) –

Respuesta

11

El formato completo para archivos .doc binarios se documenta en this pdf de formato (the Wikipedia article on .doc)

+0

¿Por qué puedo abrir un archivo .doc a través de WinRar si es solo un formato de archivo binario? – teenup

1

El .doc es bastante complejo. Al igual que la mayoría de los formatos de Microsoft, refleja una larga historia de cambios entre versiones y soporte heredado. Lo publicaron no hace mucho tiempo, por lo que si desea verlo (y otros formatos anteriores a Office 2007), knock yourself out here.

0

Hay .doc de Microsoft Word y luego hay texto plano .doc. Parece que te estás preguntando sobre el formato propietario de Microsoft.

De Wikipedia:

El formato DOC varía entre los formatos de Microsoft Office Word. Las versiones de Word hasta 97 utilizan un formato diferente de la versión de Microsoft Word entre 97 y 2003.

No fue hasta 2007 cuando la Palabra .docx, aunque un archivo empaquetado, no es necesariamente un archivo .zip. Es un documento XML estructurado.

14

No es una respuesta directa a su pregunta, pero le recomiendo leer el artículo de Joel Spolsky, Why are the Microsoft Office file formats so complicated? (And some workarounds). Le dará una idea de lo complejo que es realmente el formato .doc y por qué. Joel también da una descripción muy básica de lo que el formato .doc consiste en:

Ves, Excel 97-2003 archivos son documentos compuestos OLE, que son, en esencia, un archivo sistemas dentro de un solo archivo. Estos son lo suficientemente complicados como para que tenga que leer otra especificación de 9 páginas para descubrirlo. Y estas "especificaciones" se parecen más a las estructuras C data de lo que tradicionalmente pensamos como una especificación. Es un sistema completo de archivo jerárquico .

(La cita se refiere a archivos de Excel pero se aplica a documentos de Word, así). Artículo informativo y útil para comprender por qué los archivos .docx y ODF están estructurados y diseñados de manera mucho más lógica cuando se examinan desde una perspectiva externa.

5

La idea básica detrás del formato MS Word DOC es un documento OLE Compund que, como Kibbee ya ha escrito, es básicamente un volcado de memoria. Es una forma muy compleja e intrincada de almacenar documentos, pero si alguna vez has profundizado en la aplicación Word sabrás lo increíblemente muchas características que tiene, y si lo has usado en un entorno de negocios, tendrás una buena sintiendo cómo se integra con otros programas en la serie de Office.

En general, los documentos OLE Compund son estructuras muy extensibles que le permiten almacenar todo tipo de datos en un archivo e incluso manejar en cierta medida los datos para los que no tiene una aplicación instalada. Por ejemplo, si inserta un objeto Ecuación (desde el Editor de ecuaciones MS) en un documento, se almacena como un subobjeto que es como un archivo dentro del archivo, pero este objeto no solo contiene los datos necesarios para el Editor de ecuaciones. para editarlo y renderizarlo, también tiene una representación genérica de mapa de bits (o metarchivo, tal vez) almacenada para que se pueda mostrar, aunque no se edite, en una máquina sin el Editor de ecuaciones instalado.

Esta fue la razón por la , por la forma en que tendrá que leer las especificaciones que otras personas han vinculadas al ya;)

Si desea que el camino más fácil para trabajar con los archivos, sin embargo, asegúrese de que su software se ejecute en una máquina Windows con Word instalado, luego use Automatización COM/OLE para abrir y manipular los documentos. Entonces no tendrá que preocuparse por el formato de archivo.

Cuestiones relacionadas