Aspirer un site avec HTTrack

Avril 2013

HTtrack est un aspirateur de site web, c'est-à-dire un logiciel qui sert à télécharger tout un site internet complet pour en avoir une "copie" sur son ordinateur et ne plus avoir besoin d'internet pour y accéder.

Pourquoi aspirer un site web ?

Les gens qui utilisent un aspirateur de site peuvent y trouver plusieurs intérêts, avec des intentions plus ou moins bonnes :

  • Avoir une copie offline (disponible hors connexion), pour par exemple pouvoir accéder au contenu du site dans le train ou dans l'avion, dans un endroit où il n'y a pas internet.
  • Faire une copie de sauvegarde, au cas où le site ferme un jour
  • Voler le contenu d'un site internet

En général, ce genre d'outil n'est pas vraiment du goût des éditeurs de site (dont je fais partie). Quoi qu'il en soit, nous allons voir ici comment aspirer un site avec HTTrack.

Commencez par télécharger et installer HTTrack, qui est disponible sur le site officiel : http://www.httrack.com/page/2/fr/index.html. Il en existe une version avec installeur et une version portable (sans installation), prenez celle que vous préférez (choisissez celle qui est recommandée si vous ne savez pas quelle version télécharger).

Une fois installé, lancez-le. Vous voyez apparaître une fenêtre, avec la première étape de l'assistant qui permet de configurer l'aspiration d'un site internet.

Cliquez sur Suivant, entrez le nom du projet et le chemin de base puis cliquez à nouveau sur Suivant.

À l'étape qui suit, vous devez entrer une URL du site que vous voulez aspirer :

httrack l'aspirateur de site

Vous pouvez aussi choisir le mode de fonctionnement dans Action, qui va définir comment HTTrack va procéder pour aspirer le site :

Allez donc jeter un oeil sur cette page : relevé bancaire avec excel.

  • Copie automatique de site(s) Web
  • Copie interactive de site(s) Web (questions)
  • Télécharger des fichiers spécifiques
  • Aspirer tous les sites dans les pages (miroirs multiples)
  • Tester les liens dans les pages (test de signet)
  • * Reprendre une copie interrompue
  • * Mettre à jour une copie existante

En cliquant sur le bouton Définir les options, on a accès aux réglages avancés comme :

  • Utiliser un proxy
  • Modifier les filtres qui permettent d'ignorer certains fichiers
  • Limiter la vitesse de la connexion (débit)
  • Limiter la profondeur, pour éviter de tomber dans des boucles infinies ou d'aspirer tout internet en le parcourant de lien en lien, tel un crawler de moteur de recherche comme Googlebot
  • Définir un cookie de session pour les sites qui demandent d'être connecté

Une fois terminé, passez à l'étape suivante, puis lancez le téléchargement du site en cliquant sur le bouton Terminer.

Fini de lire cette page ? allez faire un tour ici : fond d'écran final fantasy xiii, ça peut vous intéresser.

2 commentaires :
commentaire n°2942 par Hito
Hito dimanche 14 décembre 2014, 04:34
Bonjour, merci pour cette explication. Vous indiquez dans votre article que grâce au logiciel HTTrack nous pouvons aujourd'hui copier ''complétement" un site internet. Est-ce que ça veut dire qui n'importe qu'elle personne peut copier sur son pc le site de son choix afin de le modifier et le republier en son nom ?

Je pense notamment à toutes ces personnes qui n'ont pas de moyens pour faire un site... elles pourraient pourraient donc voler les données de leurs concurrents pour les modifier (du moins graphiquement) pour en suite mettre en ligne un site à leur nom à un site identique.

Merci
commentaire n°2958 par Galdon
Galdon dimanche 21 décembre 2014, 17:47
HHTrack n'est qu'un outil, il en existe d'ailleurs d'autres comme wget ou Cyotek WebCopy. Ça n'est pas parce que ces outils existent que voler le contenu d'un site soit légal, le contenu est protégé par la propriété intellectuelle. En plus, publier une copie d'un site est à mon avis une très mauvaise idée, vu le sort que réserve google au duplicate content...
facultatif
Facebook Twitter RSS Email
Forum Excel
Venez découvrir le nouveau forum excel question/réponse à la stackoverflow.com !
Forum Excel
hit parade n'en a rien a foutre du W3C Positionnement et Statistiques Gratuites Vincent Paré