2010-10-08 30 views
12

He descargado un volcado de Wikipedia y quiero convertir el formato wiki en mi formato de objeto. ¿Hay un analizador wiki disponible que convierta el objeto en XML?Analizador para Wikipedia

+0

+1 para la pregunta ya que estaba considerando rodar la mía. –

Respuesta

6

Consulte java-wikipedia-parser. Nunca he utilizado, pero de acuerdo a los documentos:

El analizador viene con un generador de HTML. Sin embargo, puede controlar la salida que está siendo generada por pasando su propia implementación de la interfaz be.devijver.wikipedia.Visitor .

2

No sé exactamente cómo se ve el formato xml del volcado de Wikipedia. Pero, si una parte del texto está en el marcado de Wikipedia, sugiero investigar http://lucene.apache.org/java/3_0_2/api/contrib-wikipedia/org/apache/lucene/wikipedia/analysis/WikipediaTokenizer.html. Esta es una de las clases de un paquete de Wikipedia para apache lucene. No lo usé, pero apache lucene es un proyecto bastante maduro, por lo que vale la pena probar su paquete, en este caso experimental.

0

Puede utilizar una amplia gama de herramientas para analizar sus contenidos. Todos los lenguajes de script tienen módulos. Por ejemplo, el lenguaje Perl tiene Text::Markup::Trac que es el analizador de sintaxis Trac wiki para Text :: Markup. Genera un archivo HTML.

-1

u podría intentar wikiprep es un analizador Perl Wikipedia check it's page

da salida a muchos archivos de algunos de ellos están

1- Wikipedia analiza en XML archivo 2- gato hier, que contiene categorías wikipedia jerarquía

lo he probado y es muy útil es solo un problema que necesita memoria alta disponible para el procesamiento más probable es más de 4 gb de RAM también puede descargar una versión XML preparada de antemano desde here que está disponible también en la página

2

El analizador JWPL analiza la estructura de un texto con MediaWiki marcado y lo representa como un objeto Java. Esto permite un acceso estructurado a los contenidos de, p. Wikipedia o Wiktionary No hay una versión independiente del analizador, ya que es parte de la versión de la API de JWPL de Wikipedia. Sin embargo, puede usarse perfectamente sin acceder a Wikipedia con JWPL.

http://code.google.com/p/jwpl/wiki/JWPLParser

0

Wiki Parser convierte Wikipedia volcados en XML analizado. Puede ser exactamente lo que necesitas.