2008-12-10 11 views
9

Estoy tratando de usar wget para obtener recursivamente solo los archivos .jpg de un sitio web en particular, con el fin de crear un protector de pantalla divertido para mí. No es un objetivo tan noble en realidad."wget ​​--dominios" no ayuda ... ¿qué estoy haciendo mal?

El problema es que las imágenes están alojadas en otra parte (mfrost.typepad.com), no en el dominio principal del sitio web (www.cuteoverload.com).

He intentado usar "-D" para especificar los dominios permitidos, pero lamentablemente no se han recibido lindos jpgs. ¿Cómo podría modificar la línea siguiente para que esto funcione?

wget -r -l2 -np -w1 -D www.cuteoverload.com,mfrost.typepad.com -A.jpg -R.html.php.gif www.cuteoverload.com/ 

Thanks.

+0

'-np' /' --no-parent' y '-D' /' --domains' no parecían funcionar para mí, tenía wget '1.12' instalado, después de instalar wget' 1.16' mismo comando devuelto resultado diferente, la limitación de dominios funciona ahora. Mi comando completo incluía estas opciones adicionales: '-m -E -k -np'. – adrianTNT

+0

Mi caso también requiere -erobots = apagado. Los archivos que quería descargar se excluyeron para los robots. –

Respuesta

12

Un examen de wget 's página de manual [1] dice lo siguiente acerca -D:

Set dominios que han de seguirse. domain-list es una lista de dominios separados por comas. Tenga en cuenta que no enciende -H.

Este documento informativo sobre -H parece interesante:

habilitar la división en hosts al hacer recuperación recursiva.

Por lo tanto, solo necesita agregar el indicador -H a su invocación.

(Una vez hecho esto, parece que todas las imágenes están restringidas a mfrost.typepad.com/cute_overload/images/2008/12/07 y mfrost.typepad.com/cute_overload/images/2008/12/ 08).

- [1] Aunque wget el manual de referencia principal está en formato de información.

Cuestiones relacionadas