Outils pour capturer et convertir le Web

Comment gratter la liste des produits et les pages de détail

Sur les sites Web, il existe souvent une page de recherche contenant une liste d'éléments, une description récapitulative étant associée à chaque élément, ainsi qu'un lien vers une page de détail contenant des informations détaillées sur l'élément.

Comme cette structure est si souvent utilisée, il est souvent nécessaire de supprimer des informations sur chaque élément de la page de recherche et le reste de la page de détail. Cet article vous expliquera comment récupérer ces informations.

Commencez par saisir l'URL de la page de la liste de produits que vous souhaitez gratter. Sélectionnez ensuite les informations que vous souhaitez sélectionner dans la page de la liste de produits. Assurez-vous que tous les exemples de données sont sélectionnés.

Ensuite, sur la page d'instructions de scrape, cliquez sur Ajouter l'instruction de gratter.

La première chose à prendre en compte est que notre scraper fonctionne exactement comme un navigateur. Ainsi, si une notification de sécurité par cookie ou tout autre popup en ligne vous empêche de cliquer sur la page, vous devez demander au racleur de fermer le popup avant le le reste de la raclage peut être fait. Il suffit de cliquer une fois sur la plupart de ces fenêtres contextuelles pour que vous puissiez dire à GrabzIt de faire de même. Pour ce faire, utilisez le Élément de clic action et cliquez sur l'élément HTML requis pour fermer la fenêtre contextuelle. Puis cliquez sur l'option Une fois seulement puis Save et ensuite.

Ensuite, choisissez le extraire des données action, puis sélectionnez les données que vous souhaitez extraire. Donc, si vous voulez sélectionner le titre d'un élément, dans la liste des résultats de la recherche. Assurez-vous que tous les titres de cette liste sont sélectionnés.

Notre assistant tente d'identifier automatiquement des ensembles de données et peut sélectionner plus d'informations que vous ne le souhaitez automatiquement. Si cela se produit, cliquez à nouveau sur les éléments que vous ne souhaitez pas sélectionner et ils ne seront plus inclus. Cela enseigne à notre racleur Web ce qu’il faut extraire.

Maintenant, choisissez l'attribut de la donnée à extraire. Par exemple, "Texte", puis cliquez sur Suivant. Sur l'écran suivant, donnez-lui un titre. Notez que vous souhaitez que toutes les données utilisent le modèle par défaut. En effet, vous souhaitez que les données soient extraites chaque fois qu’elles ne figurent pas sur un modèle spécial.

Une fois que vous avez sélectionné toutes les données d’éléments que vous souhaitez extraire de la page de recherche de produits. Sélectionnez tous les liens pour plus d'informations sur la page de détail du produit. Cela pourrait être par exemple l'image. Puis cliquez sur le Élément de clic action. Définissez le modèle sur "détail" puis accordez-lui un délai de cinq secondes et cliquez sur Suivant. Lorsqu'il vous demande si vous souhaitez extraire des données de la nouvelle page, choisissez oui. Maintenant, sélectionnez les données que vous souhaitez extraire comme avant. Mais cette fois, spécifiez qu'il doit être exécuté sous le modèle "detail".

Ajoutez une autre instruction de raclage et revenez à la page principale. Cette fois, sélectionnez le bouton suivant dans les liens de pagination. Quand le Action de clic La case d'option apparaît s'il vous plaît sélectionner le bouton page suivante option. De cette façon, le grattoir sait que ce bouton est en fait un bouton de pagination et paginera à travers tous les résultats. S'il vous plaît assurez-vous que vous avez cette instruction gratter en dernier. Si ce n'est pas la dernière instruction de suppression, vous pouvez la faire glisser jusqu'au bout.

Ensuite, allez dans l’onglet emploi du temps et cliquez sur Créer pour lancer la récupération. Vous pouvez suivre la progression de la suppression en temps réel sur la page Gérer les mises au rebut en cliquant sur l'icône de la ligne, puis sur l'icône de visualisation de la mise au rebut.