Outils pour capturer et convertir le Web

Comment télécharger un site web et tout son contenu?

Site Web

Dans certains cas, il est important de télécharger un site Web entier, pas seulement le résultat final. Mais les pages Web HTML, les ressources telles que CSS, les scripts et les images.

C'est peut-être parce que vous voulez une sauvegarde du code mais que vous ne pouvez plus accéder à la source d'origine pour une raison quelconque. Ou peut-être voulez-vous un enregistrement détaillé de la façon dont un site Web a changé au fil du temps.

Heureusement, Web Scraper de GrabzIt peut atteindre cet objectif en parcourant toutes les pages Web d'un site Web. Ensuite, sur chaque page Web, le grattoir télécharge le code HTML ainsi que toutes les ressources référencées sur la page.

Créer un scrap pour télécharger un site Web complet

Pour rendre le téléchargement de votre site Web aussi simple que possible, GrabzIt fournit un modèle de scrape.

Pour commencer charger ce modèle.

Entrez ensuite votre Cible URL, cette URL est ensuite automatiquement vérifiée pour les erreurs et toutes les modifications requises apportées. Garder le Démarrer automatiquement le raclage la case est cochée et votre éraflure démarre automatiquement.

Personnaliser votre grattage

Si vous souhaitez modifier le modèle, décochez la case Démarrer automatiquement le raclage case à cocher. Une modification consisterait à exécuter le raclage selon un horaire régulier, par exemple, pour créer des copies régulières d'un site Web. Sur le Calendrier, gratter onglet, cliquez simplement sur le Répéter Gratter case à cocher, puis sélectionnez la fréquence à laquelle vous souhaitez que le raclage se répète. Puis clique Mises à jour pour commencer le grattage.

Utilisation de votre site Web téléchargé

Une fois le nettoyage terminé, vous obtiendrez un fichier ZIP. Ensuite, extrayez le fichier ZIP situé dans un répertoire appelé Fichiers contenant toutes les pages Web et les ressources Web téléchargées. Il y aura également une page HTML spéciale appelée data.html à la racine du répertoire. Ouvrez ce fichier dans un navigateur Web et vous trouverez un tableau HTML à trois colonnes:

Ce fichier est conçu pour vous aider à mapper les nouveaux noms de fichiers sur leurs anciens emplacements. Cela est nécessaire car une URL ne peut pas être directement mappée à une structure de fichier car une URL peut être beaucoup trop grande pour être stockée directement dans le chemin du fichier.

De plus, il peut y avoir beaucoup de permutations, en particulier lorsqu'une page Web peut représenter beaucoup de contenu différent en modifiant diverses requêtes. string paramètres! Donc, au lieu de cela, nous stockons le site Web dans une structure plate dans le dossier et nous vous donnons le fichier data.html pour mapper ces fichiers sur la structure d'origine.

Bien entendu, pour cette raison, vous ne pouvez pas ouvrir une page HTML téléchargée et vous attendre à voir la page Web que vous avez vue sur le Web. Pour ce faire, vous devez réécrire les chemins de l'image, du script, des ressources CSS, etc. afin que le fichier HTML puisse les trouver dans votre structure de fichier locale.

Website.csv est un autre fichier qui sera inclus dans la racine du fichier ZIP. Cela contient exactement les mêmes informations que le fichier data.html. Toutefois, cela est inclus dans le cas où vous voudriez lire et traiter le téléchargement du site Web par programme, en utilisant éventuellement le mappage des URL vers les fichiers pour recréer le site Web téléchargé.