2009-06-01 15 views
5

Estoy intentando descargar un espejo estático de una wiki usando wget. Solo quiero la última versión de cada artículo (no el historial completo o diferencias entre las versiones). Sería fácil simplemente descargar todo y eliminar páginas innecesarias más tarde, pero hacerlo llevaría demasiado tiempo y provocaría una tensión innecesaria en el servidor.wget WIKI, no obtengas páginas de diferencias (¿excluir por regex?)

Hay una serie de páginas que claramente no necesito, tales como:?

WhoIsDoingWhat acción = dif & date = 1184177979

¿Hay una manera de decir que no wget para descargar y recursivamente en las direcciones URL que tienen 'action = diff' en ellos? ¿O excluir URLs que coincidan con algunas expresiones regulares?

Respuesta

3
-R '*action=diff*,*action=edit*' 
+0

Parece que hacer eso descargará la página, la rechazará y luego la eliminará (en lugar de saltar para descargarla por completo). – stonea

+0

Aunque evitará la recurrencia en la página rechazada. – stonea

+0

No veo evidencia de eso. "La opción '--reject' funciona de la misma manera que '--accept', solo su lógica es la inversa, Wget descargará todos los archivos excepto los que coincidan con los sufijos (o patrones) en la lista". (-R es lo mismo que --reject y --rejlist.) Eso parece indicar claramente que no descargará patrones coincidentes. – chaos