me gustaría ir con el uso de la mejor herramienta para cada trabajo:
- el mejor tipo de base de datos para almacenar y consultar datos es una base de datos relacional.
- la mejor base de datos para administrar archivos es el sistema de archivos.
Usando el sistema de archivos le permitirá utilizar las herramientas adecuadas para la gestión de archivos: puede utilizar las funciones de compresión del sistema operativo, utilizar herramientas de copias de seguridad incrementales, etc., y no inflar su base de datos con documentos de Word a veces mal construidas que pueden contener grandes imágenes.
Como el número de archivos aumenta, el problema es fácil de resolver desde el punto de vista del sistema de archivos: almacene los archivos en directorios de ruta relativos para que pueda mantener el número de archivos por directorio bajo control (por ejemplo, creando una carpeta semanal o creando una nueva carpeta cuando el conteo de archivos supera un cierto límite).
Luego solo necesita mantener la ruta relativa del archivo en la base de datos.
También normalizaría los nombres de los archivos en el momento del envío para mantenerlos constantes, como 20090219-001.doc
.
Como otros sugirieron, podría analizar el archivo doc para extraer la información puramente textual y almacenarla en la base de datos para obtener los beneficios de la búsqueda de texto.
Convierta a texto sin formato y almacene en una columna de texto ... Pro: ahora puede usar el índice FTS. Otro profesional: te deshaces de todo ese formato molesto. – Shog9