2010-07-22 13 views
15

Si tengo la url en una página, ¿cómo obtendría la información de Infobox a la derecha utilizando los servicios web de MediaWiki?¿Cómo obtener los datos de Infobox de Wikipedia?

+1

Debe estar hablando de la caja utilizada en algunas páginas, por ejemplo, una página sobre una persona, que cubre los detalles básicos (peso, altura, edad, ...) - ¿verdad? – Wikis

+0

sí, es correcto – tomxu

+1

@tomux - acepte una de las respuestas si realmente responde su pregunta. – Wikis

Respuesta

9

No hay forma trivial de hacerlo. Puede intentar recuperar el contenido de la página utilizando action=raw, es decir, http://en.wikipedia.org/w/index.php?action=raw&title=Douglas_Jardine Luego, busque el inicio del cuadro de información buscando {{Infobox. Luego, encuentre el final buscando la coincidencia }}, teniendo en cuenta que la propia infobox también puede contener {{ - }} y {{{ - }}} pares.

1

Tomxu - de lo que está hablando es una plantilla, que es una página simple que puede incluir en otra página. Para la caja de información, debe comenzar por mirar Template:Infobox. Esto te da instrucciones detalladas.

También puede presionar Editar (o ver el código) y copiar los contenidos en su propia wiki. Tenga en cuenta que las plantillas tienden a estar en una jerarquía, por lo que es posible que necesite copiar otras plantillas que usa Infobox (si desea usarlas). Cada plantilla se puede identificar con {{}}, por ejemplo, la plantilla de Infobox se verá así: {{Infobox}}.

Mencioné una jerarquía: en realidad encontrará varias plantillas que usan Template: Infobox. Para encontrarlos, simplemente escríbalo en el campo de búsqueda de Wikipedia: Plantilla: Infobox y luego encontrarás varios ejemplos, p. Ej. Template:Infobox writer

Actualización: si usted quiere decir Navboxes, entonces see this information.

0

En nuestro proyecto utilizar consultas de búsqueda de datos del wiktionary así:

 
http://query.yahooapis.com/v1/public/yql?q=select%20*%20from%20html%20where%20url%3D%22http%3A%2F%2Fen.wiktionary.org%2Fwiki%2Flife%22%20and%20xpath%3D'%2F%2Fdiv%5B%40id%3D%22bodyContent%22%5D'&format=xml&diagnostics=false&env=store%3A%2F%2Fdatatables.org%2Falltableswithkeys&callback=recwiki 

que no tienen comprensión global de la misma, pero funciona. El resultado de salida se puede filtrar usando jquery u otra cosa.

13

Tal vez un poco tarde, pero quería lo mismo y no vi ninguna solución fácil aquí, pero (como señala Bryan) resulta que no es demasiado difícil usar la API de Mediawiki con esta biblioteca:

https://github.com/siznax/wptools

Uso:

>>> import wptools 
>>> so = wptools.page('Stack Overflow').get_parse() 
>>> so.infobox 
{'alexa': '{{DecreasePositive}}', 
'author': '[[Joel Spolsky]] and [[Jeff Atwood]]', 
'caption': 'Screenshot of Stack Overflow as of February 2015', 
'commercial': 'Yes', 
'content_license': '[[Creative Commons license|CC-BY-SA]] 3.0', 
'current status': 'Online', 
'landscape': 'yes', 
'language': 'English', 
'launch date': '{{start date and age|2008|9|15}}', 
'logo': 'Stack Overflow logo.svg', 
'name': 'Stack Overflow', 
'owner': 'Stack Exchange, Inc.', 
'programming_language': '[[C Sharp (programming language)|C#]]', 
'registration': 'Optional; Uses [[OpenID]]', 
'revenue': '', 
'screenshot': 'Stack Overflow homepage.png', 
'slogan': '', 
'type': '[[:Category:Knowledge markets|Knowledge markets]]', 
'url': '{{URL|https://stackoverflow.com}}'} 
+0

no tan bueno. Realmente necesito verificar si lo que extraes es correcto. A veces, para un artículo dado en el cuadro de información se extrae todo el enlace –

+2

@HaniGotc, hemos realizado algunas mejoras. Háganos saber si todavía tiene un problema. – siznax

0

Qué sobre el uso del modo de edición? Se podía comenzar en el TextArea correcta (la mayor parte del tiempo contiene id="wpTextBox1") y analizar el contenido de ese TextArea ... La URL que solía descubrir eso era (Nota: la sección = 0):

https://de.wikipedia.org/w/index.php?title=Pelephone&action=edit&section=0 

Saludos

2

Cada página de Wikipedia está asociada a un elemento de Wikidata, y todos estos elementos incluyen la mayoría de los parámetros de las plantillas Infobox de la página de Wikipedia.Entonces solo necesita acceder a los datos asociados a su página de Wikipedia desde Wikidata API.

Un ejemplo cómo obtener los datos de Wikipedia página Donald Trump de Wikidata item:

https://www.wikidata.org/w/api.php?action=wbgetentities&sites=enwiki&props=claims&titles=Donald Trump 

La respuesta incluirá: fecha y lugar de nacimiento, la imagen, la religión, la madre, el padre, los niños, la altura, la firma, sitio web oficial, etc., toda la información principal sobre Donald Trump incluida en el Infobox de Wikipedia.

Cuestiones relacionadas