Outils pour capturer et convertir le Web

Documentation Web Scraper

Pour créer une page Web, vous devez spécifier cinq types d’informations, réparties sur les onglets suivants.

  1. Options de grattage
  2. Site Web cible
  3. Instructions de grattage
  4. Options d'exportation
  5. Calendrier, gratter

Options de grattage

Toutes les fonctionnalités suivantes sont disponibles pour personnaliser une retouche Web dans l’onglet Options de mise au point.

Gratter le nom le nom de l'égratignure.

Suivre les liens fournit les options suivantes sur la manière dont le racleur doit suivre les liens:

Ignorer les téléchargements de fichiers Une fois défini, tous les liens qui entraînent un téléchargement de fichier lorsque visité ne sont pas téléchargés

Ignorer le fichier Robots.txt s'il est défini, le racleur peut visiter les pages Web normalement exclues de l'exploration par le propriétaire du site.

Ignorer les pages d'erreur s'il est défini, le grattoir Web ignorera toutes les pages Web signalant une erreur. Donc, tous les codes d'état HTTP 400 ou plus.

Ignorer les fragments d'URL s'il est défini, le grattoir Web ignorera la partie de l'URL après le # cette fonctionnalité est couramment utilisée pour désigner un signet sur la même page et entraînerait donc normalement la suppression de pages inutiles. Cependant, certains sites Web utilisent cette fonctionnalité pour afficher un contenu différent, auquel cas ce paramètre doit être désactivé. Cette option n'est applicable que lorsque le suivi des liens n'est pas requis.

Ignorer les doublons s'il est défini, il ignorera les pages égales ou supérieures à la similarité que vous avez définie. Par exemple, vous pourriez ignorer les pages 95% identiques.

Limiter le grattage vous permet de spécifier le nombre de pages que le racleur Web doit gratter avant de s’arrêter.

Utiliser mon fuseau horaire s'il est défini, il indique que Web Scraper doit tenter de convertir les dates supprimées. into votre fuseau horaire local. Votre fuseau horaire peut être défini sur la page du compte.

Localisation l'emplacement géographique dans lequel le racloir Web effectuera le raclage. Cela peut être utile si le site Web cible est soumis à des restrictions basées sur l'emplacement.

Format de date par défaut lors de la conversion de dates pour lesquelles le format de date ne peut pas être déterminé, Web Scraper utilisera par défaut le format choisi.

Délai de chargement de page c'est le temps en millisecondes pendant lequel Web Scraper doit attendre avant d'analyser une page. Ceci est très utile si une page contient beaucoup d'AJAX ou est lente à charger.

Site Web cible

Site Web cible

Dans l'onglet Site Web cible, vous spécifiez les sites Web dont vous souhaitez extraire des données. Pour demander à l'outil Scrape d'extraire les données d'un site Web, vous devez d'abord spécifier l'URL principale que vous utilisez. intered par exemple http://www.example.com/shop/ C’est là que le racloir commencera, il peut s’agir d’une page Web normale, d’un document PDF, d’un document XML, d’un document JSON, d’un flux RSS ou d’un plan du site. S'il ne s'agit pas d'une page Web ou d'un document PDF, le grattoir trouvera tous les liens dans le fichier et visitera chacun d'eux.

Pour suivre uniquement les liens présents dans l'URL cible et non les pages suivantes, vous pouvez définir le Suivre les liens option de grattage à en première page. Cela utilisera l'URL cible uniquement pour générer le reste de la note.

Modèle d'URL

Par défaut, le navigateur Web suit chaque lien détecté sur chaque page Web visitée. Si vous voulez restreindre ce qui lie le Grattoir Web suit, un moyen simple de procéder consiste à spécifier un modèle d'URL. Cette technique puissante fonctionne principalement en spécifiant une URL avec l'astérisque comme caractère générique pour indiquer que tous les caractères peuvent être présents dans cette partie du modèle. Par exemple http://www.example.com/*/articles/* supprimerait toute URL contenant des articles comme deuxième répertoire à la racine du site Web.

Une manière plus restrictive de définir un modèle d'URL consiste à définir des alternatives. Par exemple, cet exemple ne correspondra qu'à la boutique ou aux actualités: http://www.example.com/ /*

Par conséquent, cela correspondrait à http://www.example.com/store/products/1 mais pas http://www.example.com/about/.

Ou alors, il est possible de faire correspondre tout sauf quelque chose. Par exemple, cet exemple ne correspondra pas au magasin ou aux actualités : http://www.example.com/ /*

Par conséquent, cela correspondrait à http://www.example.com/about/ mais pas http://www.example.com/store/products/1!

Un modèle d'URL peut également contenir des mots-clés. Un mot-clé est tout ce qui est contenu entre doubles crochets. Donc [[URL_START]]www.example.com* correspondra à tout début valide d'une URL, donc http://www.example.com/, https://www.example.com/ ou encore ftp://www.example.com/ par exemple.

URL de départ

Les URL initiales permettent à un utilisateur de spécifier une liste d'URL devant être explorées par Web Scraper. Si vous souhaitez uniquement supprimer les URL de référence, définissez la Suivre les liens options de grattage à pas de pages dans l'onglet Options de scrap.

Pour définir les URL de départ dans l'onglet Site Web cible, cliquez sur le bouton Ajouter une cible, puis cochez la case Définir les URL de départ et spécifiez chaque URL à gratter sur une ligne distincte.

Créer des URL de départ à partir d'un modèle d'URL

Vous pouvez également générer automatiquement des URL de référence à l'aide d'une URL de modèle. Il s'agit d'une URL unique contenant une variable d'URL. Une variable d'URL spécifie une plage de nombres à itérer.

Le numéro de début est le numéro auquel la variable d'URL doit commencer à compter, le numéro de fin est le numéro auquel la variable d'URL cessera de compter, le nombre d'itéré est le nombre que le nombre augmentera à chaque itération de la variable d'URL.

Par exemple pour l'URL du modèle suivant http://www.example.com/search?pageNo=

Cela créera alors les URL de départ suivantes:

Effectuer la publication

L'URL peut également spécifier une URL avec des paramètres à POST aussi, par exemple un formulaire de connexion. Pour ce faire, spécifiez l'URL du formulaire dans la zone de texte URL cible et ajoutez les paramètres de publication requis à utiliser. Les valeurs de variable de publication peuvent également inclure des variables spéciales GrabzIt, telles que:

Instructions de grattage

Les instructions de raclage indiquent au Web Scraper les actions à effectuer lors du raclage du site Web cible. L'onglet Instructions de grattage affiche l'assistant de grattage par défaut, ce qui facilite l'ajout des instructions de grattage dont vous avez besoin. Un bon exemple d'utilisation de cet assistant est présenté dans le liste de produits et didacticiel sur le grattage de détails.

Une fois que vous êtes prêt à commencer le grattage, appuyez sur le Ajouter une nouvelle instruction de grattage lien.

Cela ouvrira l'assistant et chargera automatiquement l'URL cible, vous permettant de sélectionner immédiatement ce que vous souhaitez récupérer. Si une page Web ou un document PDF a été chargé, vous pouvez cliquer sur n'importe quel lien et il fonctionnera normalement, par exemple la navigation vers une autre page Web. Jusqu'à ce que vous choisissiez l'une des actions, en bas de l'écran, à ce pointint tous les clics sur le contenu sélectionneront l'élément HTML que vous souhaitez extraire ou manipuler.

La première chose à comprendre à propos des instructions de scrape est qu'elles sont exécutées par défaut sur chaque page Web. Le moyen d'arrêter cela est d'utiliser des modèles. Un modèle peut être affecté lors de l'exécution d'une action telle qu'un clic sur un lien, de sorte que chaque fois que le grattoir visite ce lien ou clique sur ce bouton, il reconnaît qu'il appartient au modèle affecté. Cela permet de définir différents types de pages. Par exemple, vous pouvez avoir une page de catégorie de produit contenant des informations générales, puis une page de détail contenant les informations sur le produit. Les deux pages auraient probablement besoin d'un ensemble d'instructions de grattage différent.

Grattoir

Pour commencer, choisissez le Cliquez action, une fois que vous avez sélectionné les éléments sur lesquels vous souhaitez exécuter l'action et cliqué sur le bouton Suivant bouton entrez le nom du modèle dans le Créer un modèle zone de texte maintenant chaque fois que le racleur exécute ces actions, le modèle renvoyé sera le nom que vous avez fourni.

Ensuite, pour affecter un modèle particulier à une instruction de grattage, vous devez sélectionner le modèle souhaité dans le menu déroulant. Exécuter dans liste déroulante, qui apparaît dans la fenêtre d’options juste avant l’ajout de l’instruction scrape. Les trois principales options lors du choix d'un modèle sont les suivantes:

Une fois que vous avez sélectionné l'une de ces options, l'instruction de raclage ne sera exécutée que sur le modèle spécifié.

Extraction de données

Vous remarquerez que lorsque vous sélectionnez le extraire des données action. Le coin inférieur gauche de l'écran vous invite à sélectionner un élément HTML dans la fenêtre ci-dessus ou à choisir une propriété de page globale.

Pour utiliser une propriété de page globale, cliquez sur l'icône propriété de page globale lien. Confirmez ensuite que vous souhaitez continuer. Vous aurez maintenant une liste de propriétés qui peuvent être extraites directement de la page. Par exemple: Titre de la page.

Pour en choisir un, sélectionnez-le dans la liste des options et cliquez sur Suivant pour ajouter les données au jeu de données.

Si vous souhaitez extraire des données dans des éléments HTML spécifiques plutôt que d'appartenir à la page entière, vous devez cliquer sur les éléments HTML pertinents, vous pouvez sélectionner un ou plusieurs éléments. Cependant, si vous sélectionnez plusieurs éléments, veuillez essayer de sélectionner plusieurs éléments qui sont alors identiques, tels que plusieurs lignes dans une colonne, car si le grattoir ne peut pas créer une règle pouvant identifier de manière unique la collection de données sélectionnée, une instruction de grattage ne le fera pas. pouvoir être créé. De plus, si les multiples éléments sur lesquels vous cliquez ont été identifiés comme des données répétitives par notre assistant Web Scraper, toutes les données répétitives dans ce même groupe seront automatiquement sélectionnées. Une fois que vous avez sélectionné tous vos éléments simples ou multiples, choisissez un attribut à extraire en bas à gauche de l'écran, puis cliquez sur Suivant.

Créer un jeu de données

L'écran de l'ensemble de données vous permet de modifier la façon dont les données sont traitées, par exemple vous pouvez renommer l'ensemble de données et les colonnes qu'il contient, cliquez simplement sur le nom pour le renommer. Lorsque vous ajoutez une colonne à un ensemble de données, vous devez également choisir le modèle dans lequel elle doit être exécutée. Vous pouvez modifier cela en cliquant sur la liste déroulante située sous le nom de la colonne.

Lors de l'extraction de données, il arrive souvent que certains éléments répétés se répètent de manière incohérente, afin de s'assurer que les lignes correctes sont toujours associées les unes aux autres. Lier les colonnes critères, pour lier les colonnes incohérentes à la colonne la plus cohérente de l’ensemble de données.

Pour ajouter plus de données au jeu de données, cliquez sur le bouton ou cliquez sur le supprimer des données du jeu de données, ou supprimer tout le jeu de données. L'ensemble de données permet également d'appliquer différents critères aux données. Pour ce faire, sélectionnez l'action souhaitée en haut, puis cliquez sur la colonne appropriée pour appliquer les critères. Si vous faites une erreur en ajoutant des critères, cliquez simplement sur le bouton .

Voici la liste des différents types de critères et comment les utiliser:

Lorsque vous avez sélectionné l'une des opérations ci-dessus, si elle peut affecter plusieurs colonnes, il vous demandera si vous souhaitez l'autoriser uniquement à affecter un sous-ensemble des colonnes ou toutes. Dans la plupart des cas, vous souhaitez que cela affecte toutes les colonnes, cependant dans certaines circonstances, il est utile de limiter les colonnes affectées. Par exemple, si vous sélectionnez une série de étiquettes et valeurs, qui changent de position sur les pages Web, vous pouvez sélectionner toutes les étiquettes et toutes les valeurs. Ensuite, dans l'ensemble de données, utilisez l'opération equals pour le limiter à l'étiquette souhaitée et spécifiez que seules les colonnes d'étiquette et de valeur doivent être affectées. Cela garantira que les autres colonnes ne sont pas affectées par la suppression des lignes, pour être complet, il serait utile de masquer la colonne d'étiquette.

Une fois que vous avez modifié tout ce que vous voulez, cliquez sur Suivant et, vos instructions de raclage seront ajoutées au scrap. Vous avez ensuite la possibilité d'ajouter d'autres instructions de raclage si vous le souhaitez.

Manipulation d'une page Web

Une page Web peut être manipulée avant d'être supprimée en cliquant sur, en tapant et en sélectionnant les valeurs dans les menus déroulants. Il est important de se rappeler que même si cela peut entraîner le chargement des nouvelles instructions sur une nouvelle page Web, celles-ci ne redémarreront pas tant que toutes les instructions applicables n'auront pas été exécutées.

Pour manipuler une page Web, choisissez soit le Élément de clic, Élément de survol, Faites défiler, Type de texte or Sélectionnez la valeur de la liste déroulante Actions. Si vous effectuez une action de clic, vous pouvez cliquer sur un nombre quelconque d'éléments sur une page Web. Sinon, vous devez sélectionner un élément HTML approprié, par exemple le texte doit être saisi dans une zone de texte. Puis clique Suivant. Cela ouvrira une boîte d’option vous permettant de compléter l’action. Lors de la saisie de texte et de la sélection dans une liste déroulante, les données à saisir ou à sélectionner doivent être sélectionnées. Sinon, les options sont les mêmes pour les trois actions.

Si vous le souhaitez, vous pouvez sélectionner le modèle dans lequel cette action doit être exécutée et pour l'action de clic quel modèle s'applique, une fois l'action de clic terminée. Cependant, attribuer un nouveau modèle à une action de clic qui effectue plusieurs clics sur la même page n'est pas une bonne idée, comme ouvrir des fenêtres contextuelles en ligne ou faire apparaître des éléments à l'écran. En effet, si l'action de clic ne s'exécute que sur certains modèles, le nouveau modèle attribué par le premier clic ne serait pas réinitialisé et donc, selon la façon dont le scrape a été écrit, cela pourrait empêcher l'exécution de futurs clics sur la même page. Vous pouvez également définir si vous souhaitez que cette action ne soit exécutée qu'une seule fois, ce qui est utile si vous faites quelque chose comme login intun site Web.

Les actions Type de texte ou Liste déroulante de sélection des valeurs vous permettent de saisir plusieurs éléments de texte ou de sélectionner plusieurs boîtes de sélection, respectivement. Ceux-ci peuvent être édités en cliquant sur les instructions pour gratter Modifier ou afficher des variables bouton, comme indiqué dans la capture d'écran à gauche.

Cela peut être important si vous souhaitez par exemple taper une liste de noms dans un champ de recherche. Pour garantir qu'un formulaire est soumis uniquement lorsqu'il existe une valeur dans la zone de recherche, un modèle peut être défini chaque fois que le texte est correctement saisi. into la zone de texte et l'action de clic sur un bouton ne sont pas exécutées à moins que ce modèle ne soit défini. Une fois que vous avez cliqué sur le clic, vous devez remplacer le modèle par un autre élément afin de réinitialiser la procédure.

Une fois que les actions manipulant les sites Web ont été exécutées, il est utile d'attendre un moment si les actions lancent la fonctionnalité AJAX, afin de permettre au contenu AJAX de se charger avant de poursuivre la suppression. Vous pouvez le faire en ajoutant un délai dans la Après l'exécution, attendez zone de texte.

Vous voudrez peut-être passer directement à une autre URL une fois que certaines conditions auront été remplies. Pour ce faire, utilisez le Aller à l'URL action, qui n'apparaîtra que si au moins un modèle a été défini dans le scrap et qu'une fois créé, il doit être affecté à un modèle afin d'éviter les boucles infinies.

Enfin, vous pouvez utiliser toutes les API de capture de GrabzIt dans vos notes Web, il vous suffit de choisir l'action Capturer une page Web et de choisir la capture souhaitée. Vous pouvez limiter le nombre de pages Web capturées à l’enregistrement en spécifiant un modèle à exécuter une fois que vous avez sélectionné Suivant .

Une fois que chaque instruction de scrape est ajoutée, elle peut être vue dans le panneau d'instructions de scrape, la croix à côté de chaque instruction de scrape permet de supprimer l'instruction de scrape. Si une instruction de grattage est supprimée qui est requise par d'autres instructions de grattage, ces instructions sont également supprimées. Vous pouvez modifier l'ordre des instructions de grattage en faisant glisser les instructions de grattage avec l'icône de saisie.

Écrire des instructions à la main manuellement

Si vous avez besoin de personnaliser les instructions de raclage d'une manière plus spécifique, vous devrez les modifier manuellement.

Les instructions d'extraction sont basées sur JavaScript et l'éditeur de code est fourni avec un vérificateur de syntaxe, une saisie semi-automatique et des info-bulles afin de simplifier au maximum.

Instructions de racleur Web La fonctionnalité principale de l'éditeur de code est accessible via les options du menu, comme le montre la capture d'écran. Le but de chacune d'elles est expliqué séparément ci-dessous. Toutes les erreurs de syntaxe dans vos instructions de scrap sont indiquées dans la gouttière de gauche de l'éditeur de code.

Wizard L'assistant vous permet de sélectionner des parties de la page que vous souhaitez extraire et d'effectuer d'autres tâches courantes telles que la création de captures Web.

Afficher les instructions de grattage affiche le code d'instructions de grattage à l'utilisateur.

Supprimer toutes les instructions supprime toutes les instructions de suppression.

Fonctions de la page Web va entrer le mot clé de la page into les instructions de grattage et ouvrez la saisie semi-automatique, qui contient toutes les Fonctions des pages. Les fonctions de page vous permettent d'extraire des données de la page Web.

Fonctions de données va entrer le mot-clé de données into les instructions de grattage. Fonctions de données vous permettent de save </br>L’Information.

Fonctions de navigation entre le mot-clé Navigation into l'éditeur de code. le Fonctions de navigation vous permettent de contrôler la façon dont Web Scraper navigue sur le site Web cible.

Fonctions globales entre le mot clé global into les instructions de grattage. Cela vous donne accès à fonctions qui peut stocker des données entre l'analyse de différentes pages Web. Lors de l'écriture d'instructions de scrap, il est important de noter que l'état des variables JavaScript dans les instructions de scrap n'est pas conservé lorsque le racleur passe d'une page Web à l'autre, sauf si vous utilisez les fonctions globales. save variables, comme indiqué ci-dessous.

Global.set("myvariable", "hello");
var mrvar = Global.get("myvariable");

Pour créer une variable globale persistante, passez true au paramètre persist de la méthode Global.set, comme indiqué ci-dessous.

Global.set("myvariable", "hello", true);

Fonctions utilitaires entre le mot-clé utilitaire into les instructions de grattage. Cela vous permet d'utiliser fonctions communes qui facilitent l'écriture, comme l'ajout ou la suppression d'une requêtestring paramètres à partir d'URL.

Fonctions de critères entre le mot clé Critères into les instructions de grattage. Celles-ci fonctions vous permet d'affiner les données extraites lors de votre exploration, telles que l'élimination des doublons.

Filtre vous permet de créer facilement un filtre, cela est requis par certaines fonctions pour sélectionner un élément HTML particulier à partir d'une page Web. Sélectionnez simplement les attributs que votre élément cible devrait avoir et/ou le(s) parent(s) de l'élément devraient avoir pour sélectionner cet élément. Assurez-vous qu'avant de cliquer sur cette option, votre curseur est au bon endroit dans la fonction pour passer également le filtre.

Fonctions de capture d'écran vous permet de définir les options de capture d'écran. Placez simplement le curseur dans la partie correcte de la fonction, comme indiqué par l'info-bulle, puis appuyez sur les options de capture d'écran. Ensuite, choisissez toutes les options que vous souhaitez et insérez la commande.

String

Strings sont utilisés dans les instructions de mise au rebut, lors de la mise au rebut Web, pour définir le texte. UNE string est délimité par double (") ou des guillemets simples ('). Si un string commence par un double devis, il doit se terminer par un double devis, si un string commence par un seul devis, il doit se terminer par un seul devis. Par exemple:

"my-class" et 'my-class'

Une erreur commune qui peut se produire est la non fermée string erreur, c’est quand un string n'a pas de devis de clôture comme indiqué ci-dessus ou il y a un saut de ligne dans le string. Ce qui suit est illégal strings:

"my
class"

"my class

Résoudre cette erreur consiste à s’assurer qu’ils ne contiennent pas de sauts de ligne ni de guillemets identiques, comme suit:

"my class" et "my class"

Parfois, vous souhaitez qu'une citation simple ou double apparaisse dans un string. Pour ce faire, le plus simple est de mettre une citation unique dans un string délimité par des guillemets doubles et une double citation dans un string délimité par des guillemets simples, comme suit:

"Bob's shop" et '"The best store on the web"'

Alternativement, vous pouvez utiliser une barre oblique inverse pour échapper à une citation comme ceci:

'test\'s'

Tâches de nettoyage manuel communes

Vérificateur de lien Créer un vérificateur de lien personnalisé - Découvrez comment créer un vérificateur de lien personnalisé en suivant ces instructions simples.
Téléchargement d'image Télécharger toutes les images d'un site web - Découvrez comment télécharger toutes les images d'un site web entier.
Créer un jeu de données Extraire les données et les transformer intun ensemble de données - Découvrez comment créer un jeu de données à partir du site Web que vous raclez.
Extraire les liens Extraire des liens d'un site web - Découvrez comment extraire tous les liens HTML d'un site Web entier et save les dans le format que vous désirez.
Sélectionnez le texte Extraire des valeurs du texte en utilisant des modèles - Découvrez comment utiliser des modèles pour extraire des valeurs de blocs de texte.
OCR Extraire le texte des images - Découvrez comment extraire le texte contenu dans les images.
Ensemble de données Comment compiler un jeu de données - formatez mieux vos données extraites en utilisant un remplissage.
tableau Manipuler des tableaux - Découvrez comment utiliser les méthodes spéciales de l’utilitaire de tableau pour manipuler facilement les tableaux dans les éraflures.
Action Effectuer une action une seule fois lors d'une éraflure - Découvrez comment effectuer une action une seule fois pendant un éraflage complet.
Affiner Raffinage des données grattées - Découvrez comment supprimer les données non requises de vos éraflures.
Courriel Grattez les adresses email d'un site web - Découvrez comment récupérer toutes les adresses e-mail d'un site Web.
Capture d'écran Capture du site entier into PDF ou Images - découvrez comment utiliser Web Scraper de GrabzIt pour capturer toutes les pages d'un site Web entier.
Capture d'écran Extraire des informations structurées à partir de texte non structuré - Utilisez GrabzIt pour extraire les sentiments, les noms, les emplacements et les organisations.

Raclage de contenu autre que HTML

Lorsque le Scraper Web rencontre les formats PDF, XML, JSON et RSS, il le convertit en une approximation HTML, ce qui permet à notre Scraper Web de l’analyser correctement et de vous permettre de sélectionner le contenu que vous souhaitez extraire. Par exemple, si vous souhaitez analyser les données JSON, il convertira les données into une représentation HTML hiérarchique comme indiqué sur le côté. Cela vous permet de construire des instructions de grattage comme d'habitude.

De la même manière, lorsque le grattoir charge un document PDF, le PDF est converti. into HTML pour permettre aux images, aux hyperliens, au texte et aux tableaux d'être sélectionnés et grattés. Cependant, comme un fichier PDF n'a pas de structure réelle, les tables sont identifiées à l'aide d'heuristiques et ne sont donc pas toujours précises.

Options d'exportation

Cet onglet vous permet de choisir comment vous souhaitez exporter vos résultats, vos options, notamment sous forme de feuilles de calcul Excel, XML, JSON, CSV, commandes SQL ou documents HTML. De plus, cet onglet permet de définir le nom des résultats de scrape zippés. Si vous téléchargez uniquement des fichiers ou créez des captures Web, il n'est pas nécessaire de choisir une option d'exportation car vous recevrez simplement un fichier ZIP contenant les résultats. Cet onglet vous permet également de spécifier comment vous souhaitez envoyer les résultats. Vous pouvez envoyer les résultats via Amazon S3, Dropbox, notification par courrier électronique, Ftp et WebDav.

La dernière option est une URL de rappel, qui permet de traiter les résultats de récupération dans votre application à l'aide de notre gratter l'API.

Le nom de fichier des résultats compressés ou de chaque fichier de données si vous demandez leur envoi séparément peut être défini en décochant l'option Utiliser le nom de fichier par défaut et en définissant le nom de fichier souhaité. De plus, un horodatage peut être ajouté à votre nom de fichier en mettant {GrabzIt_Timestamp_UTC+1} dans le nom du fichier. Le +1 indique le décalage en heures par rapport à UTC.

Vous pouvez également afficher les résultats d'un grattage en cliquant sur le bouton Voir les résultats bouton, à côté de votre grattage, cela affichera tous les résultats de grattage en temps réel, ainsi que les précédents effectués au cours des 48 dernières heures.

Calendrier, gratter

Lors de la création d'un web scrape, l'onglet Planifier le scrape vous permet de définir le moment où vous souhaitez que le scrape commence et si vous souhaitez qu'il se répète, à quelle fréquence il doit le faire. Le scrape peut également être configuré pour s'exécuter lorsqu'une modification sur une page Web est détectée. Pour faire ça Démarrer lorsqu'une page Web change case à cocher, puis saisissez l'URL de la page Web à surveiller, ainsi que le Sélecteur CSS de la partie de la page où vous vous trouvez intIl est important qu'une petite partie de la page soit sélectionnée pour éviter les faux positifs dus à des modifications sans conséquence.

Surveillance et débogage des éraflures

Une fois la page Web démarrée, l’icône de statut devient et les pages traitées commenceront à augmenter avec le temps. Un instantané en temps réel de la progression des grattages est régulièrement produit avec un fichier journal généré avec une capture d'écran régulière de la dernière page Web rencontrée par le grattoir. Cela vous permet de voir ce qui se passe pendant le grattage. Pour trouver ces informations, cliquez sur l'icône de développement à côté de votre scrape et cliquez sur Téléspectateur pour le raclage que vous êtes interested in. Cela devrait préciser s’il ya eu des erreurs telles que des problèmes avec vos instructions de scrape.

Une fois la récupération terminée, l’icône de statut passe à , s’il n’ya aucun résultat en ouvrant la visionneuse du journal et que la dernière capture d’écran peut vous dire ce qui ne va pas.

L’un des problèmes les plus courants signalés dans les journaux est qu’il n’ya pas un délai de rendu suffisant pour supprimer la page, souvent une légère augmentation du nombre de pages. Délai de chargement de page trouvé dans la Options de grattage l'onglet est suffisant pour la plupart des sites Web.