Estoy tratando de usar boilerpipe biblioteca de Java, para extraer noticias de un conjunto de sitios web. Funciona muy bien para textos en inglés, pero para texto con caracteres especiales, por ejemplo, palabras con acentos (história), estos caracteres especiales no se extraen correctamente. Creo que es un problema de codificación.Uso de boilerpipe para extraer artículos no ingleses
En el faq boilerpipe, dice "Si extrae texto que no está en inglés, es posible que necesite cambiar algunos parámetros" y luego se refiere a paper. No encontré ninguna solución en este documento.
Mi pregunta es, ¿hay algún parámetro al usar boilerpipe donde puedo especificar la codificación? ¿Hay alguna forma de dar la vuelta y obtener el texto correctamente?
Cómo estoy usando la biblioteca: (primer intento basado en la URL):
URL url = new URL(link);
String article = ArticleExtractor.INSTANCE.getText(url);
(segundo en el código fuente HTLM)
String article = ArticleExtractor.INSTANCE.getText(html_page_as_string);
Gracias por la respuesta. Lo siento por solo prestarle atención ahora pero me he quedado atrapado en otro proyecto. Intenté imprimir el código que se configuró en la variable c después de este fragmento de código, y el resultado siempre fue ISO-8859-1. También intenté forzar la codificación para que fuera UTF-8, pero no obtuve mejores resultados. El problema debe estar en una de las conversiones, en HTMLDocument, en TextDocument, etc. Pero estoy teniendo problemas para imprimir su contenido de texto. ¿Algunas ideas? Gracias de nuevo. –
Andrei, tenías razón. Estaba intentando complicar mucho, pero al final fue una solución muy simple. Gracias de nuevo, lo siento, no puedo haberte subyugado aún. –