¿Hay algún paquete para R que permita consultar Wikipedia (probablemente utilizando Mediawiki API) para obtener una lista de artículos disponibles relevantes para dicha consulta, así como para importar artículos seleccionados para minería de texto?¿Cómo acceder a Wikipedia desde R?
Respuesta
Utilice el paquete RCurl
para recuperar información, y los paquetes XML
o RJSONIO
para analizar la respuesta.
Si está detrás de un proxy, establezca sus opciones.
opts <- list(
proxy = "136.233.91.120",
proxyusername = "mydomain\\myusername",
proxypassword = 'whatever',
proxyport = 8080
)
utilizar la función getForm
acceder a the API.
search_example <- getForm(
"http://en.wikipedia.org/w/api.php",
action = "opensearch",
search = "Te",
format = "json",
.opts = opts
)
Analizar los resultados.
fromJSON(rawToChar(search_example))
Tengo problemas con el uso de esto para algunos términos de búsqueda, pero sospecho que es un problema con la red en la que estoy. Necesito voluntarios para verificar el código de muestra con diferentes cadenas en el parámetro 'search'. –
Hay WikipediR
, 'Una envoltura API MediaWiki en I'
library(devtools)
install_github("Ironholds/WikipediR")
library(WikipediR)
Incluye las siguientes funciones:
ls("package:WikipediR")
[1] "wiki_catpages" "wiki_con" "wiki_diff" "wiki_page"
[5] "wiki_pagecats" "wiki_recentchanges" "wiki_revision" "wiki_timestamp"
[9] "wiki_usercontribs" "wiki_userinfo"
aquí está en uso, consiguiendo los detalles de contribución y de usuario detalles para un grupo de usuarios:
library(RCurl)
library(XML)
# scrape page to get usernames of users with highest numbers of edits
top_editors_page <- "http://en.wikipedia.org/wiki/Wikipedia:List_of_Wikipedians_by_number_of_edits"
top_editors_table <- readHTMLTable(top_editors_page)
very_top_editors <- as.character(top_editors_table[[3]][1:5,]$User)
# setup connection to wikimedia project
con <- wiki_con("en", project = c("wikipedia"))
# connect to API and get last 50 edits per user
user_data <- lapply(very_top_editors, function(i) wiki_usercontribs(con, i))
# and get information about the users (registration date, gender, editcount, etc)
user_info <- lapply(very_top_editors, function(i) wiki_userinfo(con, i))
- 1. Cómo acceder a ApplicationContext desde un controlador
- 2. ¿Cómo acceder a FileTables desde Entity Framework?
- 3. Cómo acceder a Seconds_Behind_Master desde SQL
- 4. Cómo acceder a una variable de entorno fiesta desde dentro de R en emacs-ess
- 5. accediendo a R desde SAS
- 6. Acceder a Gmail desde Java
- 7. ¿Cómo funciona el "enlace de Wikipedia" de Wikipedia?
- 8. ¿Existe una buena API R para acceder a Google Docs?
- 9. R: llamando a una función desde un espacio de nombres
- 10. ¿Hay alguna API en Java para acceder a los datos de wikipedia?
- 11. ¿Puedo acceder a una cookie desde Socket.io?
- 12. ¿Cómo rastrear toda la Wikipedia?
- 13. ¿Cómo obtengo un enlace a una imagen en la wikipedia desde el cuadro de información?
- 14. Cómo acceder a MySQL desde múltiples hilos simultáneamente
- 15. ¿Cómo acceder a un servicio web desde powershell?
- 16. ASP.Net 4.0 - ¿Cómo acceder a RouteData desde una ASHX?
- 17. Cómo acceder a la sesión desde una clase de Java
- 18. ¿Cómo acceder a una función de matlab desde código java?
- 19. ¿Cómo puedo acceder a mi servidor localhost desde otras computadoras?
- 20. Cómo acceder a archivos HTML desde ASP.NET MVC VIEWS Carpeta
- 21. ¿Cómo se puede acceder a RouteData desde el código subyacente?
- 22. ¿Cómo acceder a un Resource.resx desde la página ASP.NET?
- 23. ¿Cómo acceder a current_user desde una notificación de Rails?
- 24. Cómo acceder desde la clase no activable a la clase
- 25. Cómo acceder a Checkbox desde VBA en Excel 2007
- 26. cómo acceder a una clase desde un dll en python?
- 27. Cómo acceder a Team Foundation Server (TFS) desde Linux
- 28. ¿Cómo acceder a un servicio web PHP desde ASP.Net?
- 29. ¿Cómo acceder a Subversion desde Oracle PL/SQL?
- 30. cómo acceder a scriptData desde uploadify en asp.net Controlador MVC
Puede encontrar lo siguiente útil: http://www.ragtag.info/2011/feb/10/processing-every-wikipedia-article/ – James