Outils pour capturer et convertir le Web

Documentation Web Scraper

Pour créer une page Web, vous devez spécifier cinq types d’informations, réparties sur les onglets suivants.

  1. Options de grattage
  2. Sites Web cibles
  3. Instructions de grattage
  4. Options d'exportation
  5. Calendrier, gratter

Options de grattage

Toutes les fonctionnalités suivantes sont disponibles pour personnaliser une retouche Web dans l’onglet Options de mise au point.

Grattez le nom le nom de la gratte.

Suivre les liens fournit les options suivantes sur la manière dont le racleur doit suivre les liens:

  • selon les besoins - le réglage par défaut et l'option la plus sûre, le racleur ne suivra que les liens pour lesquels il est chargé
  • toutes les pages - le grattoir suivra chaque lien trouvé
  • première page - ne suivez que les liens trouvés sur la première page, spécifiée comme cible
  • Jusqu'à n pages de la page initiale - ne suivent que les liens sur les pages du nombre de clics spécifié à partir de la première page
  • dans les cadres - suivez les liens trouvés dans les cadres et les iframes

Ignorer le fichier Robots.txt s'il est défini, le racleur peut visiter les pages Web normalement exclues de l'exploration par le propriétaire du site.

Ignorer les téléchargements de fichiers Une fois défini, tous les liens qui entraînent un téléchargement de fichier lorsque visité ne sont pas téléchargés

Ignorer les doublons s'il est défini, il ignorera les pages égales ou supérieures à la similarité que vous avez définie. Par exemple, vous pourriez ignorer les pages 95% identiques.

Limiter les éraflures vous permet de spécifier le nombre de pages que le racleur Web doit gratter avant de s’arrêter.

Utiliser mon fuseau horaire s'il est défini, il indique que Web Scraper doit tenter de convertir les dates supprimées. into votre fuseau horaire local. Votre fuseau horaire peut être défini sur la page du compte.

Lieu l'emplacement géographique dans lequel le racloir Web effectuera le raclage. Cela peut être utile si le site Web cible est soumis à des restrictions basées sur l'emplacement.

Format de date par défaut lors de la conversion de dates pour lesquelles le format de date ne peut pas être déterminé, Web Scraper utilisera par défaut le format choisi.

Délai de chargement de page c'est le temps en millisecondes pendant lequel Web Scraper doit attendre avant d'analyser une page. Ceci est très utile si une page contient beaucoup d'AJAX ou est lente à charger.

Sites Web cibles

Sites Web cibles

Dans l'onglet Sites Web cibles, vous spécifiez les sites Web dont vous souhaitez extraire les données. Pour demander à l'outil de récupération d'extraire des données d'un site Web, vous devez d'abord spécifier l'URL principale que vous utilisez. interested par exemple http://www.example.com/shop/ C’est là que le racloir commencera, il peut s’agir d’une page Web normale, d’un document PDF, d’un document XML, d’un document JSON, d’un flux RSS ou d’un plan du site. S'il ne s'agit pas d'une page Web ou d'un document PDF, le grattoir trouvera tous les liens dans le fichier et visitera chacun d'eux.

Pour suivre uniquement les liens présents dans l'URL cible et non les pages suivantes, vous pouvez définir le Suivre les liens option de raclage à en première page. Cela utilisera l'URL cible uniquement pour générer le reste de la note.

Par défaut, le navigateur Web suit chaque lien détecté sur chaque page Web visitée. Si vous voulez restreindre ce qui lie le Grattoir Web Suit un moyen simple de spécifier un modèle d’URL. Cela fonctionne en spécifiant une URL avec l'astérisque comme caractère générique pour indiquer que tous les caractères peuvent être présents dans cette partie du modèle. Par exemple http://www.example.com/*/articles/* supprimerait toute URL contenant des articles comme deuxième répertoire à la racine du site Web.

L'URL peut également spécifier une URL avec des paramètres à POST aussi, par exemple un formulaire de connexion. Pour ce faire, spécifiez l'URL du formulaire dans la zone de texte URL cible et ajoutez les paramètres de publication requis à utiliser. Les valeurs de variable de publication peuvent également inclure des variables spéciales GrabzIt, telles que:

  • {{day}} - jour sous forme de valeur à deux chiffres
  • {{month}} - mois sous forme de valeur à deux chiffres
  • {{year}} - année sous forme de valeur à quatre chiffres
  • {{hour}} - heure sous forme de valeur à deux chiffres
  • {{minute}} - minute sous forme de valeur à deux chiffres
  • {{second}} - seconde avec une valeur à deux chiffres

Enfin, vous pouvez spécifier URL de semences pour vous assurer que ces URL sont supprimées.

URL de la graine

Les URL initiales permettent à un utilisateur de spécifier une liste d'URL devant être explorées par Web Scraper. Si vous souhaitez uniquement supprimer les URL de référence, définissez la Suivre les liens options de raclage à pas de pages dans l'onglet Options de scrap.

Pour définir des adresses URL d'origine dans l'onglet Sites Web cibles, cliquez sur le bouton Ajouter une cible, puis cochez la case Définir les adresses URL d'origine et indiquez chaque adresse à effacer sur une ligne distincte.

Créer des URL de départ à partir d'un modèle d'URL

Vous pouvez également générer automatiquement des URL de référence à l'aide d'une URL de modèle. Il s'agit d'une URL unique contenant une variable d'URL. Une variable d'URL spécifie une plage de nombres à itérer.

{{start number|finish number|iterate number}}

  • numéro de départ le nombre que la variable d'URL commence à
  • numéro de fin le nombre auquel la variable URL se termine à
  • numéro d'itération le nombre d'itérations de la variable d'URL

Le numéro de début est le numéro auquel la variable d'URL doit commencer à compter, le numéro de fin est le numéro auquel la variable d'URL cessera de compter, le nombre d'itéré est le nombre que le nombre augmentera à chaque itération de la variable d'URL.

Par exemple pour l'URL du modèle suivant http://www.example.com/search?pageNo={{1|3|1}}

Cela créera alors les URL de départ suivantes:

  • http://www.example.com/search?pageNo=1
  • http://www.example.com/search?pageNo=2
  • http://www.example.com/search?pageNo=3

Instructions de grattage

Les instructions relatives à la mise au rebut indiquent au Web Scraper les actions à effectuer pour supprimer le (s) site (s) Web cible (s). L'onglet Instructions de grattage montre l'assistant de grattage par défaut, ce qui facilite l'ajout des instructions de grattage dont vous avez besoin. Pour commencer, appuyez sur le bouton Ajouter une nouvelle instruction de grattage lien.

Cela ouvrira l'assistant et chargera automatiquement l'URL cible, vous permettant de sélectionner immédiatement ce que vous voulez gratter. Si une page Web ou un document PDF a été chargé, vous pouvez cliquer sur n’importe quel lien pour qu’il agisse normalement, par exemple pour naviguer vers une autre page Web. Jusqu'à ce que vous choisissiez l'une des actions, en bas de l'écran, à ceint tous les clics sur le contenu sélectionneront l'élément HTML que vous souhaitez extraire ou manipuler.

La première chose à comprendre à propos des instructions de grattage est qu’elles sont exécutées sur toutes les pages Web par défaut. La solution consiste à utiliser des modèles. Un modèle peut être affecté à une action telle qu'un clic sur un lien. Ainsi, chaque fois que l'utilisateur passe en revue ce lien ou clique sur ce bouton, il reconnaît qu'il appartient au modèle attribué. Cela permet de définir différents types de page. Par exemple, vous pouvez avoir une page de catégorie de produit contenant des informations générales, puis une page de détail contenant les informations sur le produit. Les deux pages auraient probablement besoin d'un jeu d'instructions différent.

Grattoir

Pour commencer, choisissez le Cliquez action, une fois que vous avez sélectionné les éléments sur lesquels vous souhaitez exécuter l'action et cliqué sur le bouton Suivant bouton entrez le nom du modèle dans le Créer un modèle zone de texte maintenant chaque fois que le racleur exécute ces actions, le modèle renvoyé sera le nom que vous avez fourni.

Ensuite, pour affecter un modèle particulier à une instruction de grattage, vous devez sélectionner le modèle souhaité dans le menu déroulant. Exécuter dans liste déroulante, qui apparaît dans la fenêtre d’options juste avant l’ajout de l’instruction scrape. Les trois principales options lors du choix d'un modèle sont les suivantes:

  • Toutes les pages - n'utilisez pas de modèle pour cette instruction de raclage, l'instruction de raclage sera exécutée sur toutes les pages Web.
  • Modèle par défaut - n'utilisez pas l'un des modèles définis par l'utilisateur. Cette instruction sera exécutée sur toute page Web pour laquelle aucun modèle n’a été spécifié.
  • Modèle défini par l'utilisateur - l'un des modèles que vous avez définis pour identifier une page Web ou une action particulière.

Une fois que vous avez sélectionné l'une de ces options, l'instruction de raclage ne sera exécutée que sur le modèle spécifié.

Extraction de données

Vous remarquerez que lorsque vous sélectionnez le extraire des données action Une série d'éléments de données à extraire devient immédiatement disponible au téléchargement dans le coin inférieur gauche de l'écran. Ce sont des propriétés de toute la page que vous pouvez télécharger. Pour en choisir un, il suffit de le sélectionner dans la liste des options et de cliquer sur Suivant ajouter les données au jeu de données.

Si vous souhaitez extraire des données dans des éléments HTML spécifiques plutôt que d'appartenir à la page entière, vous devez cliquer sur les éléments HTML appropriés, vous pouvez sélectionner un ou plusieurs éléments. Toutefois, si vous sélectionnez plusieurs éléments, essayez de sélectionner plusieurs éléments qui sont alors identiques, tels que plusieurs lignes dans une colonne, car si le scraper ne peut pas créer une règle pouvant identifier de manière unique la collection de données sélectionnée, une instruction de nettoyage ne sera pas pouvoir être créé. De plus, si les multiples éléments sur lesquels vous cliquez ont été identifiés comme répétant des données par notre assistant de nettoyage Web, toutes les données répétitives de ce même groupe seront automatiquement sélectionnées. Une fois que vous avez sélectionné tous vos éléments simples ou multiples, choisissez un attribut à extraire en bas à gauche de l'écran, puis cliquez sur Suivant.

Créer un jeu de données

L'écran de jeu de données vous permet de modifier le traitement des données. Par exemple, vous pouvez renommer le jeu de données et les colonnes qu'il contient. Cliquez simplement sur le nom pour le renommer. Lorsque vous ajoutez une colonne à un jeu de données, vous devez également choisir le modèle dans lequel elle doit être exécutée. Vous pouvez le modifier en cliquant sur la liste déroulante située sous le nom de la colonne.

Lors de l'extraction de données, il arrive souvent que certains éléments répétés se répètent de manière incohérente, afin de s'assurer que les lignes correctes sont toujours associées les unes aux autres. Lien Colonnes critères, pour lier les colonnes incohérentes à la colonne la plus cohérente de l’ensemble de données.

Pour ajouter plus de données au jeu de données, cliquez sur le bouton bouton ou cliquez sur le supprimer des données du jeu de données, ou supprimer tout le jeu de données. L'ensemble de données permet également d'appliquer différents critères aux données. Pour ce faire, sélectionnez l'action souhaitée en haut, puis cliquez sur la colonne appropriée pour appliquer les critères. Si vous faites une erreur en ajoutant des critères, cliquez simplement sur le bouton .

Voici la liste des différents types de critères et comment les utiliser:

  • Limites de rangées - Cela limitera le nombre de lignes extraites de la page Web au nombre que vous définissez. Pour utiliser cliquez puis cliquez sur la rangée au-delà de laquelle vous souhaitez être coupé.
  • Répéter - répète les éléments de colonne jusqu'à ce que la colonne corresponde à la longueur de la colonne la plus longue. Pour utiliser, cliquez simplement sur puis cliquez sur la colonne pour laquelle vous souhaitez répéter les éléments.
  • Rendre Unique - supprime toutes les valeurs en double pour toutes les valeurs entrées into une colonne. Pour utiliser, cliquez simplement sur puis cliquez sur la colonne que vous souhaitez rendre unique.
  • Extraire des valeurs - specify a pattern to only extract the matching items of data from a block of text. To use just click , sélectionnez la colonne appropriée, puis suivez les instructions pour créer un modèle qui renverra les données pertinentes du string.
  • Limiter les valeurs - spécifiez un motif pour couper le texte redondant. Pour utiliser, cliquez simplement sur , sélectionnez la colonne appropriée, puis suivez les instructions pour créer un motif qui rognera le texte.
  • Lien Colonnes - permet aux colonnes d'être liées ensemble. Ainsi, lors de l'extraction des données, les enregistrements apparaîtront sur la même ligne que la ligne relative de la colonne liée, même en cas de non concordance du nombre de résultats. Pour utiliser, cliquez simplement sur , sélectionnez la colonne à lier, puis colonne à lier.
  • Masquer la colonne - Parfois, vous souhaitez inclure une colonne sur laquelle filtrer mais ne souhaitez pas inclure les valeurs dans le résultat final. Pour ce faire, cliquez simplement sur , sélectionnez la colonne à exclure.
  • Trier par ordre croissant - trie par colonne, croissant. Pour utiliser cliquez puis choisissez la colonne à trier.
  • Trier par ordre décroissant - trie par colonne, décroissant. Pour utiliser cliquez puis choisissez la colonne à trier.
  • Contient - n'inclut que les valeurs contenant la valeur définie. Pour utiliser cliquez sélectionnez la colonne souhaitée, puis entrez la valeur que les valeurs de colonne doivent contenir.
  • Égal à - n'inclut que les valeurs égales à la valeur définie. Pour utiliser cliquez sélectionnez la colonne souhaitée, puis entrez la valeur à laquelle les valeurs de la colonne doivent être égales.
  • Pas égal à - n'inclut que les valeurs qui ne sont pas égales à la valeur définie. Pour utiliser cliquez sélectionnez la colonne souhaitée, puis entrez la valeur à laquelle la colonne ne doit pas être égale.
  • Moins que - n'inclut que les valeurs inférieures à la valeur définie. Pour utiliser cliquez pour sélectionner la colonne souhaitée, puis entrez la valeur que la colonne doit avoir inférieure à.
  • Plus grand que - n'inclut que les valeurs supérieures à la valeur définie. Pour utiliser cliquez pour sélectionner la colonne souhaitée, puis entrez la valeur que la colonne doit dépasser.

Une fois que vous avez sélectionné l’une des opérations ci-dessus, si cela peut affecter plusieurs colonnes, il vous demandera si vous souhaitez l’autoriser uniquement à affecter un sous-ensemble des colonnes ou l’ensemble de celles-ci. Dans la plupart des cas, vous souhaitez que toutes les colonnes soient affectées. Toutefois, dans certaines circonstances, il est utile de limiter les colonnes effectuées. Par exemple, si vous sélectionnez une série de étiquettes et valeurs, qui changent de position sur les pages Web, vous pouvez sélectionner toutes les étiquettes et toutes les valeurs. Ensuite, dans l'ensemble de données, utilisez l'opération equals pour la limiter à l'étiquette souhaitée et spécifiez que seules les colonnes étiquette et valeur doivent être affectées. Cela garantira que les autres colonnes ne sont pas affectées par les lignes supprimées. Pour plus de détails, il serait utile de masquer la colonne d'étiquette.

Une fois que vous avez modifié tout ce que vous voulez, cliquez sur Suivant et, vos instructions de grattage seront ajoutées à la grattage.

Manipuler une page Web

Une page Web peut être manipulée avant d'être supprimée en cliquant sur, en tapant et en sélectionnant les valeurs dans les menus déroulants. Il est important de se rappeler que même si cela peut entraîner le chargement des nouvelles instructions sur une nouvelle page Web, celles-ci ne redémarreront pas tant que toutes les instructions applicables n'auront pas été exécutées.

Pour manipuler une page Web, choisissez soit le Élément de clic, Élément de survol, Faites défiler, Type de texte or Sélectionnez la valeur de la liste déroulante Actions. Si vous effectuez une action de clic, vous pouvez cliquer sur un nombre quelconque d'éléments sur une page Web. Sinon, vous devez sélectionner un élément HTML approprié, par exemple le texte doit être saisi dans une zone de texte. Puis clique Suivant. Cela ouvrira une boîte d’option vous permettant de compléter l’action. Lors de la saisie de texte et de la sélection dans une liste déroulante, les données à saisir ou à sélectionner doivent être sélectionnées. Sinon, les options sont les mêmes pour les trois actions.

Si vous le souhaitez, vous pouvez sélectionner le modèle dans lequel cette action doit être exécutée et pour l'action de clic, quel modèle s'applique, une fois que l'action de clic est terminée. Toutefois, l'attribution d'un nouveau modèle à une action de clic effectuant plusieurs clics sur la même page n'est pas une bonne idée, telle que l'ouverture de fenêtres contextuelles en ligne ou l'affichage d'éléments à l'écran. En effet, si l'action de clic ne s'exécute que sur certains modèles, le nouveau modèle attribué par le premier clic ne sera pas réinitialisé et, par conséquent, en fonction de la manière dont la note a été écrite, cela pourrait empêcher l'exécution de futurs clics sur la même page. Vous pouvez également définir si vous souhaitez que cette action ne soit exécutée qu'une seule fois, ce qui est utile si vous effectuez quelque chose comme une connexion. into un site web.

Les actions Type de texte ou Liste déroulante de sélection des valeurs vous permettent de saisir plusieurs éléments de texte ou de sélectionner plusieurs boîtes de sélection, respectivement. Ceux-ci peuvent être édités en cliquant sur les instructions pour gratter Modifier ou afficher des variables bouton, comme indiqué dans la capture d'écran à gauche.

Cela peut être important si vous souhaitez par exemple taper une liste de noms dans un champ de recherche. Pour garantir qu'un formulaire est soumis uniquement lorsqu'il existe une valeur dans la zone de recherche, un modèle peut être défini chaque fois que le texte est correctement saisi. into la zone de texte et l'action de clic sur un bouton ne sont pas exécutées à moins que ce modèle ne soit défini. Une fois que vous avez cliqué sur le clic, vous devez remplacer le modèle par un autre élément afin de réinitialiser la procédure.

Une fois que les actions manipulant les sites Web ont été exécutées, il est utile d'attendre un moment si les actions lancent la fonctionnalité AJAX, afin de permettre au contenu AJAX de se charger avant de poursuivre la suppression. Vous pouvez le faire en ajoutant un délai dans la Après l'exécution, attendez zone de texte.

Vous voudrez peut-être passer directement à une autre URL une fois que certaines conditions auront été remplies. Pour ce faire, utilisez le Aller à l'URL action, qui n'apparaîtra que si au moins un modèle a été défini dans le scrap et qu'une fois créé, il doit être affecté à un modèle afin d'éviter les boucles infinies.

Enfin, vous pouvez utiliser toutes les API de capture de GrabzIt dans vos notes Web, il vous suffit de choisir l'action Capturer une page Web et de choisir la capture souhaitée. Vous pouvez limiter le nombre de pages Web capturées à l’enregistrement en spécifiant un modèle à exécuter une fois que vous avez sélectionné Suivant .

Une fois que chaque instruction de grattage est ajoutée, le panneau des instructions de grattage le permet. La croix située en regard de chaque instruction de grattage permet de supprimer l’instruction de grattage. Si une instruction de suppression qui est requise par d'autres instructions de suppression est également supprimée, ces instructions sont également supprimées. Vous pouvez modifier l'ordre des instructions de grattage en faisant glisser les instructions de grattage avec l'icône de saisie.

Écrire des instructions à la main manuellement

Si vous devez personnaliser les instructions de suppression d'une manière plus spécifique ou si vous souhaitez exécuter du code avant ou après les éraflures vous devrez modifier les instructions de grattage manuellement.

Les instructions d'extraction sont basées sur JavaScript et l'éditeur de code est fourni avec un vérificateur de syntaxe, une saisie semi-automatique et des info-bulles afin de simplifier au maximum.

Instructions de racleur Web La fonctionnalité principale de l'éditeur de code est accessible via les options du menu, comme le montre la capture d'écran. Le but de chacune d'elles est expliqué séparément ci-dessous. Toutes les erreurs de syntaxe dans vos instructions de scrap sont indiquées dans la gouttière de gauche de l'éditeur de code.

magicien L'assistant vous permet de sélectionner des parties de la page que vous souhaitez extraire et d'effectuer d'autres tâches courantes telles que la création de captures Web.

Afficher les instructions de grattage affiche le code d'instructions de grattage à l'utilisateur.

Supprimer toutes les instructions supprime toutes les instructions de suppression.

Fonctions de page Web va entrer le mot clé de la page into les instructions de grattage et ouvrez la saisie semi-automatique, qui contient toutes les Fonctions de page. Les fonctions de page vous permettent d'extraire des données de la page Web.

Fonctions de données va entrer le mot-clé de données into les instructions de grattage. Fonctions de données vous permettent de save informations.

Fonctions de navigation entre le mot-clé Navigation into l'éditeur de code. le Fonctions de navigation vous permettent de contrôler la façon dont Web Scraper navigue sur le ou les sites Web cibles.

Fonctions globales entre le mot clé global into les instructions de grattage. Cela vous donne accès à fonctions qui peut stocker des données entre l'analyse de différentes pages Web. Lors de l'écriture d'instructions de scrap, il est important de noter que l'état des variables JavaScript dans les instructions de scrap n'est pas conservé lorsque le racleur passe d'une page Web à l'autre, sauf si vous utilisez les fonctions globales. save variables, comme indiqué ci-dessous.

Global.set("myvariable", "hello");
var mrvar = Global.get("myvariable");

Pour créer une variable globale persistante, passez true au paramètre persist de la méthode Global.set, comme indiqué ci-dessous.

Global.set("myvariable", "hello", true);

Fonctions utilitaires entre le mot-clé utilitaire into les instructions de grattage. Cela vous permet d'utiliser fonctions communes qui facilitent l'écriture, comme l'ajout ou la suppression d'une requêtestring paramètres d'URL.

Fonctions Critères entre le mot clé Critères into les instructions de grattage. Celles-ci fonctions vous permet d'affiner les données extraites lors de votre exploration, telles que l'élimination des doublons.

Filtre vous permet de créer facilement un filtre. Certaines fonctions en ont besoin pour sélectionner un élément HTML particulier dans une page Web. Sélectionnez simplement les attributs que votre élément cible devrait avoir et / ou le (s) parent (s) de l'élément devrait avoir pour sélectionner cet élément. Assurez-vous qu'avant de cliquer sur cette option, votre curseur se trouve au bon endroit dans la fonction pour transmettre également le filtre.

Fonctions de capture d'écran vous permet de définir les options de capture d'écran. Placez simplement le curseur dans la partie correcte de la fonction, comme indiqué par l'info-bulle, puis appuyez sur les options de capture d'écran. Ensuite, choisissez toutes les options que vous souhaitez et insérez la commande.

Effectuer des actions avant ou après une éraflure

Vous pouvez exécuter des commandes avant ou après une éraflure à l'aide de la liste déroulante d'options située en haut de l'onglet Instructions de mise au point. Toutes les commandes entrées quand Exécuter après gratter est sélectionné sera exécuté une fois la récupération terminée. Bien que toutes les commandes entrées lorsque Exécuter avant de gratter est sélectionné sera exécuté avant le début de la récupération.

Toutefois, lorsque l’un de ces deux modes spéciaux est sélectionné, il n’existe qu’un sous-ensemble des instructions de mémorisation disponibles. Les commandes disponibles sont les instructions Data, Global et Navigation scrape.

Strings

Strings sont utilisés dans les instructions de mise au rebut, lors de la mise au rebut Web, pour définir le texte. UNE string est délimité par double (") ou des guillemets simples ('). Si un string commence par un double devis, il doit se terminer par un double devis, si un string commence par un seul devis, il doit se terminer par un seul devis. Par exemple:

"my-class" 'my-class'

Une erreur commune qui peut se produire est la non fermée string erreur, c’est quand un string n'a pas de devis de clôture comme indiqué ci-dessus ou il y a un saut de ligne dans le string. Ce qui suit est illégal strings:

"my
class"

"my class

Résoudre cette erreur consiste à s’assurer qu’ils ne contiennent pas de sauts de ligne ni de guillemets identiques, comme suit:

"my class" "my class"

Parfois, vous souhaitez qu'une citation simple ou double apparaisse dans un string. Pour ce faire, le plus simple est de mettre une citation unique dans un string délimité par des guillemets doubles et une double citation dans un string délimité par des guillemets simples, comme suit:

"Bob's shop" '"The best store on the web"'

Alternativement, vous pouvez utiliser une barre oblique inverse pour échapper à une citation comme ceci:

'test\'s'

Tâches de nettoyage manuel communes

Vérificateur de lien Créer un vérificateur de lien personnalisé - Découvrez comment créer un vérificateur de lien personnalisé en suivant ces instructions simples.
Téléchargement d'image Télécharger toutes les images d'un site web - Découvrez comment télécharger toutes les images d'un site web entier.
Créer un jeu de données Extraire les données et les transformer into un jeu de données - Découvrez comment créer un jeu de données à partir du site Web que vous raclez.
Extraire des liens Extraire des liens d'un site web - Découvrez comment extraire tous les liens HTML d'un site Web entier et save les dans le format que vous désirez.
Sélectionnez le texte Extraire des valeurs du texte en utilisant des modèles - Découvrez comment utiliser des modèles pour extraire des valeurs de blocs de texte.
OCR Extraire du texte à partir d'images - Découvrez comment extraire le texte contenu dans les images.
Ensemble de données Comment compiler un jeu de données - formatez mieux vos données extraites en utilisant un remplissage.
tableau Manipuler des tableaux - Découvrez comment utiliser les méthodes spéciales de l’utilitaire de tableau pour manipuler facilement les tableaux dans les éraflures.
Action Effectuer une action une seule fois lors d'une éraflure - Découvrez comment effectuer une action une seule fois pendant un éraflage complet.
Affiner Raffinage des données grattées - Découvrez comment supprimer les données non requises de vos éraflures.
Adresse e-mail Grattez les adresses email d'un site web - Découvrez comment récupérer toutes les adresses e-mail d'un site Web.
Capture d'écran Capture du site entier into PDF ou Images - découvrez comment utiliser Web Scraper de GrabzIt pour capturer toutes les pages d'un site Web entier.
Capture d'écran Extraire des informations structurées à partir de texte non structuré - Utilisez GrabzIt pour extraire les sentiments, les noms, les emplacements et les organisations.

Raclage de contenu autre que HTML

Lorsque le Scraper Web rencontre les formats PDF, XML, JSON et RSS, il le convertit en une approximation HTML, ce qui permet à notre Scraper Web de l’analyser correctement et de vous permettre de sélectionner le contenu que vous souhaitez extraire. Par exemple, si vous souhaitez analyser les données JSON, il convertira les données into une représentation HTML hiérarchique comme indiqué sur le côté. Cela vous permet de construire des instructions de grattage comme d'habitude.

De la même manière, lorsque le grattoir charge un document PDF, le PDF est converti. into HTML pour permettre aux images, aux hyperliens, au texte et aux tableaux d'être sélectionnés et grattés. Cependant, comme un fichier PDF n'a pas de structure réelle, les tables sont identifiées à l'aide d'heuristiques et ne sont donc pas toujours précises.

Options d'exportation

Cet onglet vous permet de choisir le mode d'exportation de vos résultats, y compris les feuilles de calcul Excel, XML, JSON, CSV, les commandes SQL ou les documents HTML. De plus, cet onglet permet de définir le nom des résultats de scrap zippés. Si vous ne faites que télécharger des fichiers ou créer des captures Web, vous n'avez pas besoin de choisir une option d'exportation car vous recevrez simplement un fichier ZIP contenant les résultats. Cet onglet vous permet également de spécifier comment vous souhaitez envoyer les résultats. Vous pouvez envoyer les résultats via Amazon S3, Dropbox, notification par courrier électronique, Ftp WebDav.

La dernière option est une URL de rappel, qui permet de traiter les résultats de récupération dans votre application à l'aide de notre gratter API.

The filename of the zipped results or each data file if you request them to be sent separately can be set by unchecking the Use Default Filename option and setting your desired filename.

Calendrier, gratter

Lors de la création d’une bande Web, l’onglet Schedule Scrape vous permet de définir le moment où vous souhaitez que la séquence commence et, si vous le souhaitez, la fréquence à laquelle elle doit être répétée.

Surveillance et débogage des éraflures

Une fois la page Web démarrée, l’icône de statut devient et les pages traitées commenceront à augmenter avec le temps. Un instantané en temps réel de la progression des éraflures est régulièrement produit. Un fichier journal est généré, ainsi qu'une capture d'écran régulière de la dernière page Web que le racleur a rencontrée. Cela vous permet de voir ce qui se passe pendant le raclage. Pour trouver cette information, cliquez sur l’icône Développer en regard de votre note, puis cliquez sur Téléspectateur pour le raclage que vous êtes interested in. Cela devrait préciser s’il ya eu des erreurs telles que des problèmes avec vos instructions de scrape.

Une fois la récupération terminée, l’icône de statut passe à , s’il n’ya aucun résultat en ouvrant la visionneuse du journal et que la dernière capture d’écran peut vous dire ce qui ne va pas.

L’un des problèmes les plus courants signalés dans les journaux est qu’il n’ya pas un délai de rendu suffisant pour supprimer la page, souvent une légère augmentation du nombre de pages. Délai de chargement de page trouvé dans la Options de grattage l'onglet est suffisant pour la plupart des sites Web.