Si necesita texto sin formato, debe utilizar la biblioteca WikiClean https://github.com/lintool/wikiclean.
Tuve el mismo problema y parece que esta fue la única solución eficiente que funcionó para mí en Java.
Hay dos casos de uso:
1) Cuando se tiene el texto no en formato XML, entonces debería añadir etiquetas XML necesarios para realizar este procesamiento. Supongamos que está procesando un archivo XML anteriormente, y ahora tiene el contenido sin estructura XML, entonces simplemente agrega xmlStartTag y xmlEndTag como en el siguiente código, y lo procesa.
String xmlStartTag = "<text xml:space=\"preserve\">";
String xmlEndTag = "</text>";
String articleWithXml = xmlStartTag + article.getText() + xmlEndTag;
WikiClean cleaner = new WikiClean.Builder().build();
String plainWikiText = cleaner.clean(articleWithXml);
2) Cuando se está leyendo el archivo de volcado directamente Wikipedia (archivo XML), en ese caso sólo tiene que pasar a través del archivo y que pasa a través.
WikiClean cleaner = new WikiClean.Builder().build();
String plainWikiText = cleaner.clean(XMLFileContents);
Cloud ¿publica una muestra de una página que muestra las marcas que desea eliminar? – bakkal