2009-09-29 20 views
13

El 28 de septiembre de 2009, el Apache POI project lanzó la versión 3.5 que oficialmente admite los formatos OOXML presentados en Office 2007, como DOCX y XLSX.¿Cómo extraer texto sin formato de un archivo DOCX utilizando el nuevo soporte OOXML en Apache POI 3.5?

Proporcione un ejemplo de código para extraer el contenido de un archivo DOCX en texto sin formato, ignorando los estilos o el formato.

Pregunto esto porque no he podido encontrar ningún ejemplo de POI de Apache que cubra el nuevo soporte OOXML.

Respuesta

16

Esto funcionó para mí. Asegúrese de agregar los frascos necesarios (xmlbeans actualizar, etc.)

public String extractText(InputStream in) throws Exception { 
    XWPFDocument doc = new XWPFDocument(in); 
    XWPFWordExtractor ex = new XWPFWordExtractor(doc); 
    String text = ex.getText(); 
    return text; 
} 
6

Esto es más genérico

POITextExtractor poitex = ExtractorFactory.createExtractor (en);

return poitex.getText();

+1

Estoy de acuerdo. Gracias por una buena respuesta que cubre la extracción de texto más genérica. Desearía poder aceptar ambos. – rcampbell

Cuestiones relacionadas