Outils pour capturer et convertir le Web

Comment télécharger un site web et tout son contenu?

Site internet

Dans certains cas, il est important de télécharger un site Web entier, pas seulement le résultat final. Mais les pages Web HTML, les ressources telles que CSS, les scripts et les images.

C'est peut-être parce que vous voulez une sauvegarde du code mais que vous ne pouvez plus accéder à la source d'origine pour une raison quelconque. Ou peut-être voulez-vous un enregistrement détaillé de la façon dont un site Web a changé au fil du temps.

Heureusement, Web Scraper de GrabzIt peut atteindre cet objectif en parcourant toutes les pages Web d'un site Web. Ensuite, sur chaque page Web, le grattoir télécharge le code HTML ainsi que toutes les ressources référencées sur la page.

Créer un scrap pour télécharger un site Web complet

Pour faciliter le téléchargement de votre site Web, GrabzIt fournit un modèle de scrape. Il suffit de cliquer sur cette lien de modèle pour commencer.

Une fois cliqué, votre scrap sera créé. Ensuite, allez au Sites Web ciblés onglet et entrez l'URL du site à télécharger dans le répertoire Cible URL zone de texte. Puis clique Assigner une cible et attendez une seconde ou deux.

Passer le Instructions de grattage Options d'exportation tab et aller tout droit au Calendrier, gratter languette. Vous pouvez ensuite cliquer Actualiser pour commencer la gratte. Toutefois, si vous souhaitez configurer le service pour qu'il fonctionne régulièrement, par exemple pour créer des sauvegardes régulières d'un site Web. Ensuite, cliquez simplement sur le Répéter Gratter case à cocher, puis sélectionnez la fréquence à laquelle vous souhaitez que la lecture se répète.

Utilisation de votre site Web téléchargé

Une fois le nettoyage terminé, vous obtiendrez un fichier ZIP. Ensuite, extrayez le fichier ZIP situé dans un répertoire appelé Fichiers contenant toutes les pages Web et les ressources Web téléchargées. Il y aura également une page HTML spéciale appelée data.html à la racine du répertoire. Ouvrez ce fichier dans un navigateur Web et vous trouverez un tableau HTML à trois colonnes:

  • URL de la ressource: il s'agit de l'URL à laquelle le scraper Web a trouvé la ressource. Ainsi, par exemple: http://www.example.com/logo.jog
  • Type de ressource: il s'agit du type de ressource téléchargée. Il existe quatre types de ressources.
    • web page
    • image
    • Ressource externe - toute ressource téléchargée à partir d'une balise de lien
    • scénario
  • Nouveau nom de fichier - le nouveau nom de fichier de la ressource saved sous. Notez que cette colonne contient également un lien vers le fichier, ce qui facilite beaucoup l'inspection de toutes les ressources téléchargées.

Ce fichier est conçu pour vous aider à mapper les nouveaux noms de fichiers sur leurs anciens emplacements. Cela est nécessaire car une URL ne peut pas être directement mappée à une structure de fichier car une URL peut être beaucoup trop grande pour être stockée directement dans le chemin du fichier.

De plus, il peut y avoir beaucoup de permutations, en particulier lorsqu'une page Web peut représenter beaucoup de contenu différent en modifiant diverses requêtes. string paramètres! Donc, au lieu de cela, nous stockons le site Web dans une structure plate dans le dossier et nous vous donnons le fichier data.html pour mapper ces fichiers sur la structure d'origine.

Bien entendu, pour cette raison, vous ne pouvez pas ouvrir une page HTML téléchargée et vous attendre à voir la page Web que vous avez vue sur le Web. Pour ce faire, vous devez réécrire les chemins de l'image, du script, des ressources CSS, etc. afin que le fichier HTML puisse les trouver dans votre structure de fichier locale.

Website.csv est un autre fichier qui sera inclus dans la racine du fichier ZIP. Cela contient exactement les mêmes informations que le fichier data.html. Toutefois, cela est inclus dans le cas où vous voudriez lire et traiter le téléchargement du site Web par programme, en utilisant éventuellement le mappage des URL vers les fichiers pour recréer le site Web téléchargé.