wget WIKI, no obtengas páginas de diferencias (¿excluir por regex?)

Estoy intentando descargar un espejo estático de una wiki usando wget. Solo quiero la última versión de cada artículo (no el historial completo o diferencias entre las versiones). Sería fácil simplemente descargar todo y eliminar páginas innecesarias más tarde, pero hacerlo llevaría demasiado tiempo y provocaría una tensión innecesaria en el servidor.wget WIKI, no obtengas páginas de diferencias (¿excluir por regex?)

Hay una serie de páginas que claramente no necesito, tales como:?

WhoIsDoingWhat acción = dif & date = 1184177979

¿Hay una manera de decir que no wget para descargar y recursivamente en las direcciones URL que tienen 'action = diff' en ellos? ¿O excluir URLs que coincidan con algunas expresiones regulares?

Fuente

2009-06-01 stonea

-R '*action=diff*,*action=edit*'

Fuente

2009-06-01 17:55:10 chaos

Parece que hacer eso descargará la página, la rechazará y luego la eliminará (en lugar de saltar para descargarla por completo). – stonea

Aunque evitará la recurrencia en la página rechazada. – stonea

No veo evidencia de eso. "La opción '--reject' funciona de la misma manera que '--accept', solo su lógica es la inversa, Wget descargará todos los archivos excepto los que coincidan con los sufijos (o patrones) en la lista". (-R es lo mismo que --reject y --rejlist.) Eso parece indicar claramente que no descargará patrones coincidentes. – chaos

wget WIKI, no obtengas páginas de diferencias (¿excluir por regex?)

Respuesta

Cuestiones relacionadas