2010-10-25 15 views
11

¿Cuál sería la forma más fácil de obtener todos los artículos sobre personas de Wikipedia? Sé que puedo descargar un volcado de todas las páginas, pero ¿cómo puedo filtrar esas y obtener solo las de las personas? Necesito todos los que pueda obtener (preferiblemente más de un millón), por lo que usar cualquier tipo de API probablemente no sea una opción.¿Cómo obtengo todos los artículos sobre personas de Wikipedia?

+0

Realmente no sé lo que estás pidiendo, aparte de más de un millón de artículos de Wikipedia sobre personas (que no es un tema adecuado para SO). –

+0

¿Qué quieres decir exactamente? ¿Estás pidiendo consejos sobre cómo implementar una araña web? –

+0

No, no creo que spidering sea apropiado en este caso. Es posible descargar un archivo de volcado de wikipedia. La pregunta es cómo filtrar el archivo de volcado XML y obtener solo las páginas que tratan de personas. – Johnny

Respuesta

5

A partir de 2014 tiene otra opción: Pregunta WikiData para todas las entidades donde la propiedad instance of (P31) tiene el valor human (Q5).

Lista completa de los seres humanos: https://www.wikidata.org/wiki/Special:WhatLinksHere/Q5

De esa lista, filtrar cualquier cosa que no tenga un sex or gender (P21), deshacerse de páginas como “científico”

De esta manera, no lo hace Necesito hacer un seguimiento de qué plantillas se usan para las personas en cada edición de idioma diferente (hay 285) de Wikipedia.

Cuestiones relacionadas