jueves, 20 de octubre de 2016

Bajar una página web completa con wget ó httrack en linux

Hace tiempo que estoy haciendo ésto, no solo porque por ahí me quedo sin internet justo en el momento que realmente necesita de ese tutorial que tanto me sirve, sino tambien para bajar libros que están en formato .html, como por ejemplo los Libros de Debian.
En fin, hay dos formas de realizar esta operación, o mejor dicho, yo voy a explicar solo dos formas de realizarlo, una es la que utilizo con frecuencia, pero la otra, que acabo de conocer pinta mejor.
Para ambos casos es recomendable crear la carpeta que va a contener los archivos que estamos descargando y luego ir a esta carpeta recién creada para empesar a realizar nuestra actividad. Lo hacemos desde nuestro gestor de archivos preferido ó como yo desde la consola:

debian:/home/nercof# mkdir nombre_carpeta
debian:/home/nercof# cd nercof@debian:~$ cd nombre_carpeta/

Ahora tenemos todo listo, manos a la obra.
  1. Con httrack

    debian:/home/nercof#apt-get install httrack
    debian:/home/nercof#httrack http://www.pagina_a_bajar
  2. Con wget
    Si no queremos instalar el programa anterior, podemos realizar la misma operación éste comando que ya nos brinda GNU/Linux.

    debian:/home/nercof# wget -rkc http://www.pagina_a_bajar

    -r: recorre recursivamente la página obteniendo toda la información.
    -k: después que termina la descarga, convierte los links del documento a rutas relativas para poder navegar con normalidad.
    -c: continua desde el punto en que quedo la descarga.
Cuando termine la operacion solo abrimos el index en nuestro navegador preferido y listo!.
Ahora no tenemos excusa de que si nos quedamos sin internet no tenemos la forma de seguir estudiando.
Para mas información sobre wget vean el man pages

0 comentarios:

Publicar un comentario