El 28 de septiembre de 2009, el Apache POI project lanzó la versión 3.5 que oficialmente admite los formatos OOXML presentados en Office 2007, como DOCX y XLSX.¿Cómo extraer texto sin formato de un archivo DOCX utilizando el nuevo soporte OOXML en Apache POI 3.5?
Proporcione un ejemplo de código para extraer el contenido de un archivo DOCX en texto sin formato, ignorando los estilos o el formato.
Pregunto esto porque no he podido encontrar ningún ejemplo de POI de Apache que cubra el nuevo soporte OOXML.
Estoy de acuerdo. Gracias por una buena respuesta que cubre la extracción de texto más genérica. Desearía poder aceptar ambos. – rcampbell