Obtuve un artículo de Wikipedia y quiero buscar las primeras líneas z (o los primeros x caracteres, o las primeras palabras y, no importa) del artículo.Obtenga las primeras líneas de Wikipedia Artículo
El problema: puedo obtener el Wiki-Texto fuente (a través de API) o el HTML analizado (a través de HTTP-Request, eventualmente en la versión impresa) pero ¿cómo puedo encontrar las primeras líneas? Normalmente, la fuente (tanto html como wikitext) comienza con los cuadros de información e imágenes y el primer texto real que se muestra está en alguna parte del código.
Por ejemplo: Albert Einstein on Wikipedia (imprimir Versión). Mire en el código, la primera línea de texto real "Albert Einstein (pronunciado/ælbərt aɪnstaɪn /; alemán: [albɐt aɪ̯nʃtaɪ̯n]; 14 de marzo de 1879-18 de abril de 1955) fue un físico teórico". no está al principio. Lo mismo se aplica al Wiki-Source, comienza con el mismo cuadro de información y así sucesivamente.
Entonces, ¿cómo lograrías esta tarea? El lenguaje de programación es java, pero esto no debería importar.
Una solución que me vino a la mente fue utilizar una consulta xpath pero esta consulta sería bastante complicada para manejar todos los casos de frontera. [actualización] No fue tan complicado, ver mi solución a continuación! [/ actualización]
Gracias!
"Pensamos que en vez de poblar una base de datos de información, el sistema acaba de recuperar los contenidos de una base de datos pública, la enciclopedia como Wikipedia" - http://www.fryan0911.com/2009 /05/how-to-retrieve-content-from-wikipedia.html –
KMan: Eso solo recupera la fuente Wiki del artículo. El problema establecido por el PO aún se aplica. – Joey