Outils pour capturer et convertir le Web

Créer un vérificateur de lien personnalisé

Cet exemple est également disponible en tant que modèle.

Grattoir Web de GrabzIt est très flexible et lui permet d’effectuer diverses tâches en ligne, telles que la vérification des liens de sites Web et la création de rapports qui sont rompus.

La première chose à faire est de créer un gratter et assignez le site Web cible que vous souhaitez vérifier, puis utilisez le code ci-dessous pour les instructions de suppression.

        var urls = Page.getTagAttributes('href', {"tag":{"equals":"a"}});
        urls = Utility.Array.unique(urls);
        urls = Utility.Array.filter(urls, Data.readColumn("Links", "URL"));

        for (i = 0; i < urls.length; i++) 
        {
          var url = urls[i];

          Data.save(Page.getUrl(), "Links", "Found On");
          Data.save(url, "Links", "URL");

          if (Utility.URL.exists(url))
          {
            Data.save("Found", "Links", "Result");
          }
          else
          {
            Data.save("Missing", "Links", "Result");
          }
        }
    

La première ligne var urls = Page.getTagAttributes('href', {"tag":{"equals":"a"}}); extrait toutes les URL des hyperliens et les met dans le urls variable. La ligne suivante utilise le Utility.Array.unique méthode pour rendre toutes les URL uniques.

La troisième ligne garantit que les liens ne sont pas vérifiés deux fois pour ce faire, nous lisons les URL qui ont été précédemment saved et filtrer les liens extraits par cela. Si vous souhaitez enregistrer chaque lien sur chaque page, supprimez cette ligne.

Une fois que les données de l’URL ont été nettoyées, nous parcourons chaque URL restante, en les enregistrant dans jeu de données avec la page en cours, avant de vérifier si l’URL existe à l’aide de la touche Utility.URL.exists méthode. Le résultat de cette vérification est alors aussi saved dans le jeu de données.

Sinon, vous pouvez vérifier s'il existe des images de sites Web en remplaçant le code. Page.getTagAttributes('href', {"tag":{"equals":"a"}}); avec Page.getTagAttributes('src', {"tag":{"equals":"img"}});.