Une tâche courante consiste à extraire des liens d’un site Web, en particulier des liens HTML. Heureusement, c'est facile lorsque vous utilisez Grattoir Web de GrabzIt. Tout d’abord, créez une nouvelle note avec les détails habituels, tels que la page de démarrage de la note et d’autres options.
Ensuite, allez à la Instructions de grattage onglet et cliquez sur le bouton. Cela entrera dans le
Page
mot-clé into les instructions de grattage et ouvrira une liste déroulante. Sélectionner getTagAttributes
de la liste. Ajouter ensuite 'href'
en tant que premier paramètre, il indique à Web Scraper d'extraire l'attribut href, puis de taper une virgule.
Cliquez ensuite sur le Cela vous permet d'indiquer au Web Scraper quels éléments extraire l'attribut href. Dans la fenêtre de filtre, assurez-vous que le type est défini sur "Page Web" et que la restriction est "nom de balise" et "égal à". Puis entrez
a
dans la zone de texte, puis cliquez sur le bouton Ajouter, puis sur le bouton Insérer un filtre. Terminez l'instruction en ajoutant un point-virgule à la fin de la ligne.
Vous devriez vous retrouver avec quelque chose comme ce qui est montré ci-dessous.
Page.getTagAttributes('href', {"tag":{"equals":"a"}});
Le code ci-dessus extraira toutes les URL de liens de la page Web, mais nous devons maintenant save ces URL de lien. Pour ce faire, nous allons envelopper cette commande moins le point-virgule dans un Data.save
commander. Pour ce faire, allez au début de la ligne et sélectionnez le bouton. Puis dans le menu déroulant, sélectionnez
save
, puis allez au bout de la ligne et ajoutez une virgule. Ajoutez ensuite ce que vous voulez appeler le jeu de données, tel que "Mon site Web", puis ajoutez une autre virgule, puis ajoutez un autre paramètre pour décrire la colonne, tel que "Liens", puis fermez la commande avec un )
avant le point-virgule.
Vous devriez maintenant avoir les instructions suivantes pour gratter.
Data.save(Page.getTagAttributes('href', {"tag":{"equals":"a"}}), 'My Websites', 'Links');
Maintenant, si vous exécutez le scrape, vous extrairez tous les liens du site. Cela va créer une table avec le nom de Mes sites Web, avec un nom de colonne de liens qui peuvent ensuite être exportés. into de nombreux formats différents tels que XML, CSV ou une feuille de calcul. Ce didacticiel aurait également pu être réalisé en utilisant le bouton de l'assistant dans la barre d'outils Instructions à la lecture.