2012-08-28 26 views
8

Estoy usando la API de Google api para almacenar y recuperar archivos pdf. Me gustaría consultar estos archivos usando los parámetros de búsqueda.Google drive ¿cuál es el límite para indexar archivos grandes?

Pero antes de comenzar a implementar esto. Me gustaría saber cómo Google maneja la indexación de archivos pdf grandes. (600 + páginas 25Mb +) Me gustaría saber si hay PDF basados ​​en texto. (No necesitan ocr)

He intentado algunas búsquedas en el sitio web de la unidad y no siempre funciona.

Me gustaría saber si existen limitaciones y cuáles son.

Respuesta

3

Según this page para archivos PDF con OCR:

El tamaño máximo de las imágenes (.jpg, .gif, .png) y archivos PDF (.pdf) es de 2 MB. Para los archivos PDF, solo miramos las primeras 10 páginas cuando buscamos texto para extraer.

Y this page para archivos PDF con el texto:

Puede buscar texto en PDF y archivos de imagen por:

  • a escribir una consulta en el buscador de Google Drive en la Web.
  • Al abrir el visor de Google Drive y utilizando el cuadro de búsqueda en la esquina superior derecha.

En teoría, debería poder buscar las primeras 100 páginas de cualquier documento de texto o PDF basado en texto que haya subido. También podrá buscar el texto que se encuentre en las primeras diez páginas de cualquier imagen PDF en su unidad.

+0

Esto es solo para PDF con ocr. Me gustaría saber si hay un pdf basado en texto. – DavidVdd

+0

Buen punto, creo que he encontrado la respuesta a esa también ahora en mi respuesta actualizada. –

+0

Creo que esas 100 páginas son solo para la búsqueda de visor de PDF. – DavidVdd

Cuestiones relacionadas