2010-04-16 18 views

Respuesta

14

Echa un vistazo this page here on Wikipedia - hay una opción para descargar un archivo con los nombres de los artículos. Aquí está la actual path to the download page:

  • All Titles (gzip) - 32+ Mb en el momento de su publicación.

Editar:

Usted puede notar títulos no están en inglés que aparecen en la lista (y algunas malas palabras - ser aconsejado) contenido en enwiki-latest-all-titles-in-ns0.gz. Esto se debe a que, de forma predeterminada, la mayoría de las personas crean contenido en la wiki principal de inglés (código de idioma en). Si tuviera que investigar otros vertederos de idiomas, observará que hay diferentes conjuntos de artículos.

Leyendo el the main download page, hay referencias sobre el uso de Wikipedia API para realizar algunos tipos de consultas en Wikipedia, pero no estoy seguro de que esto resuelva su problema (la taxonomía de las páginas no parece proporcionar una forma simple de diferenciar contenido "inglés" versus "contenido en wiki inglés").

+0

Estos son solo los artículos en inglés: utilice el primer enlace si desea poder encontrar títulos de artículos (y resúmenes/contenido) para otros idiomas. –

+0

Muchas gracias @AJ – Boolean

+0

Noté que los títulos realmente contienen otros idiomas. ¿Hay alguna forma de obtener solo títulos en inglés? – Boolean

0

No conozco ninguna lista central de artículos, pero si solo necesita una gran cantidad de ellos en lugar de una lista completa (teniendo en cuenta que cualquier lista completa siempre estará desactualizada de todos modos), entonces podría probablemente pongas algo junto con wget para seguir recursivamente los enlaces dentro de wikipedia desde la página principal y almacenar las URL que obtienes.

+0

Si realmente quisiera tomar este tipo de enfoque, podría navegar por los índices como [la lista alfabética] (http://en.wikipedia.org/wiki/Wikipedia:Quick_index) –

+1

Tenga en cuenta, sin embargo, que la Wikipedia específicamente pregunta si * debe * tomar este tipo de enfoque (que en realidad no debería ser necesario) limita la velocidad de acceso a la página para evitar sobrecargar sus servidores. –

Cuestiones relacionadas