Me pregunto si hay alguna biblioteca existente o accesible desde Objective-C que me permita raspar páginas formateadas como this one. Específicamente, todas las fechas y todo el texto al lado de cada fecha. Si no, ¿cuál sería la mejor manera de hacerlo? ¿Expresiones regulares? Escuché que NSString
ya podría tener métodos integrados para esto. ¿Es esto cierto?Raspado y análisis de una página de Wikipedia
Estaba buscando para ver si había alguna alternativa al raspado, como un archivo XML o API. Encontré una API, pero los únicos clientes que veo disponibles están en otros idiomas y parece que solo pueden publicar contenido en páginas, no recuperarlo.
EDITAR: Por lo que se encontró más información sobre la API en estos enlaces:
Y yo era capaz de llegar a this request que devuelve algo de HTML texto codificado (Bueno, el formato es XML, pero incluye el texto de la página como »a href=
etc. Seguiré revisando los documentos para ver si puedo hacer e esto sale un poco mejor, si no, ¿hay alguna recomendación para analizar esto?
EDIT 2: Muy bien, así que gracias a this doc page, la manera más simple y más limpio que he sido capaz de recuperar los datos está utilizando este constructed link que devuelve los datos en bruto (En el código wiki) de la sección correspondiente. Sin embargo, supongo que necesitaría analizar eso, aunque si ese es realmente el caso, debería ser mucho más fácil que todo el artículo.
¿Alguien tiene alguna recomendación para analizar el marcado de wiki como el siguiente en Objective-C?
==Events==
* [[710]] – [[Saracen]] invasion of [[Sardinia]].
*[[1275]] – Traditional founding of the city of [[Amsterdam]].
*[[1682]] – [[Philadelphia]], [[Pennsylvania]] is founded.
Lo que quiero llegar a tener es, supongo NSDictionary
una colección o similares que almacenará la fecha con el fragmento acompaña de información. ¡Gracias!
Gracias por eso, lo aprecio. Creo que la forma en que voy a ir (la única forma en que puedo ver de hacer esto) es obtener los datos brutos y luego analizarlos de alguna manera. He incluido un ejemplo de los datos anteriores, aunque lo más probable es que cree una nueva pregunta para eso. –
Esa nueva información es mucho más fácil de analizar. Me encargaría de eso buscando el rango de cadenas que comienza después de Eventos, luego haciendo una coincidencia contra números puros entre corchetes, junto con cualquier cosa después de la ndash hasta el final de la línea. . Entonces solo tendrías que quitar todos los caracteres "[" y "]" y estarías listo. Más fácil de procesar que el HTML, que es súper enlace pesado. –
Gracias, ¿te importaría responder a mi pregunta posterior sobre el análisis sintáctico? http://stackoverflow.com/questions/1634012/how-to-parse-some-wiki-markup ¡Gracias! –