viernes, 3 de octubre de 2008

Bajar sitios completos con wget y linux

wget: Bajando sitios enteros facilmente

Unos trucos para lograr bajar automaticamente los sitios que necesites desde el internet a tu pc.

Wget es una herramienta que viene en cualquier linux, es usada para bajar archivos desde internet. Su forma basica de uso es: wget http://www.thesevenangel.blogspot.com/debian.iso

Esta es la manera en la cual wget se utiliza normalmente, pero tambien puede ser utilizado recursivamente, esto es su poder escondido. wget puede conectarse a los sitios y recursivamente bajar todas las paginas (imagenes y otro tipo de datos) que esten linkeadas en la pagina principal:

wget -r http://www.thesevenangel.blogspot.com/

Sin embargo, existen muchos sitios los cuales nos deniegan poder bajar el sitio completo. Para prevenir esto, los sitios verifican la identificacion de los navegadores. Para evitar estas molestias wget tiene la opcion -U.

wget -r -p -U Mozilla http://www.thesevenangel.blogspot.com/

Seria bueno que agregaran las opciones –limit-rate= y –wait=. Lo anterior es para hacer pausa entre cada pagina, ya que de lo contrario el dueno del sitio puede darse cuenta que con un simple comando wget le estamos bajando el sitio completamente. Sin embargo, nadie se dara cuenta si limitan la velocidad de descarga y hacen pausa entre archivos.

wget --wait=20 --limit-rate=20K -r -p -U Mozilla http://www.thesevenangel.blogspot.com/

1 comentarios:

Keiichi dijo...

suena muy util, ya lo vamos a probar por ahi, mire y no hay filtros para bajar solo ciertos elementos? como por ejemplo solo imagenes de una galeria por decir algo ? y si las imagenes estan hotlinkeadas siempre las baja? ya vamos a travesear mas XD