Outils pour capturer et convertir le Web

Documentation Web Scraper

Ceci est un aperçu de nos méthodes spéciales d’instruction de grattage que nous mettons à disposition via notre racleur Web.

Criteria.apply (tableau)

Supprime tous les éléments au même emplacement que ceux supprimés par les opérations précédentes dans ce critère du tableau fourni.

  • array - requis, le tableau auquel appliquer les modifications.

Criteria.ascending (valeurs)

Renvoie les valeurs par ordre croissant.

  • values ​​- requis, passez un tableau que vous souhaitez trier par ordre croissant.

Critères. Contient (aiguilles, valeur)

Renvoie uniquement les éléments du tableau Needles contenant la valeur spécifiée.

  • aiguilles - obligatoire, le tableau à filtrer.
  • valeur - obligatoire, les éléments de valeur doivent être contenir.

Criteria.create (tableau)

Crée un nouveau critère prêt à effectuer des opérations sur un nouveau tableau.

  • array - requis, le tableau de colonnes auquel appliquer les modifications.

  • Criteria.descending (valeurs)

    Retourne les valeurs dans l'ordre décroissant.

    • values ​​- requis, passez un tableau que vous souhaitez trier par ordre décroissant.

    Criteria.equals (aiguilles, valeur)

    Renvoie uniquement les éléments du tableau Needles qui correspondent à la valeur spécifiée.

    • aiguilles - obligatoire, le tableau à filtrer.
    • valeur - obligatoire, les éléments de valeur doivent être égaux à.

    Criteria.extract (tableau, motif)

    Renvoie tous les éléments du tableau contenant des correspondances coupées en fonction du modèle spécifié.

    • array - obligatoire, le tableau pour ajuster les correspondances.
    • pattern - requis, le pattern définit comment couper la partie souhaitée du texte renvoyé. La valeur à ajuster est indiquée par le {{VALUE}} dans le modèle.
      Par exemple, pour réduire l'âge de «Mon âge est 33». le motif 'Mon âge est {{VALEUR}}.' serait utilisé.

    Criteria.greaterThan (aiguilles, valeur)

    Renvoie les seuls éléments du tableau Needles qui sont supérieurs à la valeur spécifiée.

    • aiguilles - obligatoire, le tableau à filtrer.
    • valeur - obligatoire, les éléments de valeur doivent être supérieurs à.

    Critères.entretien (aiguilles, botte de foin)

    Renvoie le tableau aiguilles après avoir conservé les correspondances trouvées dans le tableau haystack.

    • aiguilles - obligatoire, le tableau à filtrer.
    • haystack - obligatoire, le tableau à utiliser pour conserver les aiguilles.

    Criteria.lessThan (aiguilles, valeur)

    Renvoie les seuls éléments du tableau Needles inférieurs à la valeur spécifiée.

    • aiguilles - obligatoire, le tableau à filtrer.
    • valeur - obligatoire, les éléments de valeur doivent être inférieurs à.

    Criteria.limit (valeurs, limite)

    Renvoie les n premières valeurs, où n est la variable limite.

    • values ​​- requis, passez un tableau que vous souhaitez limiter.
    • limit - requis, le nombre de valeurs que vous voulez renvoyer du tableau.

    Critères.notEquals (aiguilles, valeur)

    Renvoie les seuls éléments du tableau Needles qui NE sont PAS égaux à la valeur spécifiée.

    • aiguilles - obligatoire, le tableau à filtrer.
    • valeur - obligatoire, les éléments de valeur ne doivent PAS être égaux à.

    Critères.retirer (aiguilles, botte de foin)

    Retourne le tableau aiguilles après avoir supprimé les correspondances trouvées dans le tableau haystack.

    • aiguilles - obligatoire, le tableau à filtrer.
    • haystack - obligatoire, le tableau à utiliser pour retirer les aiguilles.

    Criteria.repeat (array)

    Répétez les éléments du tableau jusqu'à ce qu'il corresponde à la longueur de la colonne la plus longue.

    • array - obligatoire, le tableau à répéter.

    Critères.unique (aiguilles)

    Renvoie uniquement les valeurs uniques du tableau Needles.

    • aiguilles - obligatoire, transmettez un tableau dont vous souhaitez supprimer toutes les valeurs en double.

    Data.countFilesDownloaded ()

    Comptez le nombre total de fichiers téléchargés.


    Data.log (message)

    Ecrit un message dans le journal de scrap.

    • message - obligatoire, le message à écrire dans le journal.

    Data.pad (padValue, dataSet)

    Remplit toutes les colonnes présentes dans les jeux de données en ajoutant des cellules vides à la fin des colonnes jusqu'à ce que toutes les colonnes d'un jeu de données particulier aient le même nombre de cellules.

    • padValue - optionnel, la valeur pour remplir les cellules avec. Si aucun n'est spécifié, une valeur vide est utilisée.
    • dataSet - optionnel, le jeu de données à remplir.

    Data.readColumn (dataSet, column)

    Lit une colonne de la colonne spécifiée dans l'ensemble de données spécifié.

    • dataSet - optionnel, le jeu de données à partir duquel lire la valeur.
    • colonne - optionnel, la colonne de l’ensemble de données à partir de laquelle lire la valeur.

    Données.save(valeurs, ensemble de données, colonne)

    Saves toute valeur de l'ensemble de données et de la colonne spécifiés.

    • valeur - obligatoire, transmettez toute valeur ou tout tableau de valeurs que vous souhaitez. save.
    • dataSet - optionnel, le jeu de données à save la valeur into.
    • colonne - optionnel, la colonne dans le jeu de données à save la valeur into.

    Données.saveDOCXScreenshot (htmlOrUrls, options, ensemble de données, colonne)

    Effectuez une capture d'écran HTML, DOC ou DOC de DOCX et place éventuellement un lien vers le fichier dans le jeu de données et la colonne spécifiés.

    • url - obligatoire, transmettez l’url ou le tableau d’URL dont vous souhaitez effectuer une capture d’écran DOCX.
    • options - optionnel, options de capture d'écran.
    • dataSet - optionnel, le jeu de données à save le lien de capture d'écran DOCX into.
    • colonne - optionnel, la colonne dans le jeu de données à save le lien de capture d'écran DOCX into.

    Données.saveImageScreenshot (htmlOrUrls, options, ensemble de données, colonne)

    Prenez une capture d'écran HTML, URL ou URL et insérez éventuellement un lien vers le fichier dans le jeu de données et la colonne spécifiés.

    • url - obligatoire, transmettez l’url ou le tableau d’URL dont vous souhaitez prendre une capture d’image.
    • options - optionnel, options de capture d'écran.
    • dataSet - optionnel, le jeu de données à save le lien de capture d'écran de l'image into.
    • colonne - optionnel, la colonne dans le jeu de données à save le lien de capture d'écran de l'image into.

    Données.savePDFScreenshot (htmlOrUrls, options, ensemble de données, colonne)

    Effectuez une capture d'écran au format PDF de HTML, URL ou URL et place éventuellement un lien vers le fichier dans le jeu de données et la colonne spécifiés.

    • url - obligatoire, transmettez l’url ou le tableau d’URL que vous souhaitez capturer au format PDF.
    • options - optionnel, options de capture d'écran.
    • dataSet - optionnel, le jeu de données à save le lien de capture d'écran PDF into.
    • colonne - optionnel, la colonne dans le jeu de données à save le lien de capture d'écran PDF into.

    Données.saveTableScreenshot (htmlOrUrls, options, ensemble de données, colonne)

    Effectuez une capture d'écran HTML, URL ou URL de la table et place éventuellement un lien vers le fichier dans le jeu de données et la colonne spécifiés.

    • url - obligatoire, transmettez l’url ou le tableau d’URL dont vous souhaitez effectuer une capture d’écran.
    • options - optionnel, options de capture d'écran.
    • dataSet - optionnel, le jeu de données à save le lien de capture d'écran de la table into.
    • colonne - optionnel, la colonne dans le jeu de données à save le lien de capture d'écran de la table into.

    Données.saveFichier (urls, nom de fichier, ensemble de données, colonne)

    Saves une ou plusieurs URL sous forme de fichier et éventuellement un lien vers le fichier dans le jeu de données et la colonne spécifiés.

    • url - obligatoire, transmettez une URL ou un tableau d'URL que vous souhaitez transformer. into un fichier (s).
    • nom de fichier - optionnel, transmettez le nom de fichier que vous souhaitez utiliser à la place du fichier généré.
    • dataSet - facultatif, le jeu de données à save le lien de fichier into.
    • colonne - optionnel, la colonne dans le jeu de données à save le lien de fichier into.

    Données.saveToFile (data, filename, dataSet, column)

    Saves toutes les données ou éléments de données sous forme de fichier et met éventuellement un lien vers le fichier dans le jeu de données et la colonne spécifiés.

    • data - requis, transmettez toutes les données ou tout le tableau de données que vous souhaitez. save dans un fichier (s).
    • nom de fichier - optionnel, transmettez le nom de fichier que vous souhaitez utiliser à la place du fichier généré.
    • dataSet - facultatif, le jeu de données à save le lien de fichier into.
    • colonne - optionnel, la colonne dans le jeu de données à save le lien de fichier into.

    Données.saveUnique (valeurs, ensemble de données, colonne)

    Saves toute valeur unique ou valeurs associées à l'ensemble de données et à la colonne spécifiés. Les valeurs en double dans le même ensemble de données et la même colonne sont ignorées.

    • valeur - obligatoire, transmettez toute valeur ou tout tableau de valeurs que vous souhaitez. save.
    • dataSet - optionnel, le jeu de données à save la valeur into.
    • colonne - optionnel, la colonne dans le jeu de données à save la valeur into.

    Données.saveUniqueFile (urls, nom de fichier, ensemble de données, colonne)

    Saves une ou plusieurs URL sous forme de fichier et éventuellement un lien vers le fichier dans le jeu de données et la colonne spécifiés. Cette méthode ne fera que save des valeurs uniques pour l'ensemble de données et la colonne spécifiés, ou s'il n'y a aucune URL unique pour l'ensemble de données et la colonne pour l'intégralité de la note

    • url - obligatoire, transmettez une URL ou un tableau d'URL que vous souhaitez transformer. into un fichier (s).
    • nom de fichier - optionnel, transmettez le nom de fichier que vous souhaitez utiliser à la place du fichier généré.
    • dataSet - optionnel, le jeu de données à save le lien de fichier into.
    • colonne - optionnel, la colonne dans le jeu de données à save le lien de fichier into.

    Données.saveVideoAnimation (videoUrls, options, ensemble de données, colonne)

    Convertir une vidéo en ligne ou des vidéos into GIF animé (s), et met éventuellement un lien vers le fichier dans le jeu de données et la colonne spécifiés.

    • videoUrl - obligatoire, transmettez l'URL de la vidéo ou un tableau d'URL que vous souhaitez convertir. into GIF animé (s).
    • options - optionnel, options d'animation.
    • dataSet - optionnel, le jeu de données à save le lien d'animation into.
    • colonne - optionnel, la colonne dans le jeu de données à save le lien d'animation into.

    Global.get (nom)

    Obtient un saved valeur variable.

    • name - requis, nom de la variable à renvoyer.

    Global.set (nom, valeurs, persiste)

    Saves toute valeur ou valeurs entre les pages grattées.

    • nom - obligatoire, le nom de la variable à save.
    • valeur - obligatoire, la valeur de la variable à save.
    • persist - optionnel, si vrai la variable sera conservée entre les éraflures.

    Navigation.addTemplate (urls, modèle)

    Définissez l'URL ou les URL comme appartenant au modèle spécifié. Cela permet de limiter les instructions de grattage à une exécution uniquement sur certaines URL.

    • url - obligatoire, transmettez l’URL ou le tableau d’URL pour lequel vous souhaitez définir un modèle.
    • modèle - obligatoire.

    Cookies de navigation.clear ()

    Supprimez tous les cookies pour le scrap actuel.


    Navigation.navigate (filtre, modèle)

    Cliquez sur un ou plusieurs éléments HTML.

    • filter - obligatoire, le filtre utilisé pour identifier le ou les éléments HTML sur lesquels cliquer.
    • template - le modèle à affecter lors de la navigation vers l'élément HTML sélectionné.

    Navigation.goTo (url)

    Accédez immédiatement à l'URL spécifiée.

    • url - obligatoire, l'URL vers laquelle naviguer.

    Navigation.hover (filtre)

    Survolez un ou plusieurs éléments HTML.

    • filter - obligatoire, filtre utilisé pour identifier le ou les éléments HTML sur lesquels le survoler.

    Navigation.isTemplate (modèle)

    Renvoie true si la page en cours appartient au modèle spécifié.

    • template - requis, le modèle pour vérifier si la page appartient.

    Navigation.paginer (filtre, secondes)

    Pagine à travers les éléments spécifiés.

    • filter - obligatoire, filtre utilisé pour identifier le ou les éléments HTML à travers lesquels paginer.
    • secondes - requis, le nombre de secondes entre deux résultats.

    Navigation.remove (filtre)

    Supprimer un ou plusieurs éléments HTML.

    • filter - obligatoire, filtre utilisé pour identifier le ou les éléments HTML à supprimer.

    Navigation.scroll (filtre)

    Faites défiler un élément sélectionné ou la page Web entière.

    • filter - facultatif, le filtre utilisé pour identifier l'élément à faire défiler, sinon la page Web entière sera défilée.

    Navigation.select (valeurs, filtrer)

    Sélectionnez une ou plusieurs valeurs valides dans un élément de sélection.

    • valeur - obligatoire, la ou les valeurs à sélectionner.
    • filter - obligatoire, filtre utilisé pour identifier l'élément de sélection à sélectionner.

    Navigation.stopScraping (abandon)

    Arrêtez de gratter immédiatement.

    • abort - optionnel, si vrai, arrête tout traitement et n'exporte ni ne transmet aucun résultat.

    Type de navigation (textes, filtrer)

    Tapez le texte into un élément.

    • text - obligatoire, un ou plusieurs éléments de texte à taper.
    • filter - obligatoire, le filtre utilisé pour identifier quel élément taper into.

    Navigation.wait (secondes)

    Attendez quelques secondes avant de continuer. Ceci est très utile lorsque vous utilisez ce clic, sélectionnez et tapez des commandes.

    • secondes - requis, le nombre de secondes à attendre.

    La page contient (recherche, attribut, filtre)

    Renvoie true si la page contient le texte à rechercher.

    • find - obligatoire, le texte à trouver.
    • attribut - facultatif, l'attribut dans lequel effectuer la recherche.
    • filter - facultatif, le filtre utilisé pour identifier l'élément dans lequel effectuer la recherche.

    Page.exists (filtre)

    Renvoie true si la page contient un élément correspondant au filtre de recherche.

    • filter - obligatoire, le filtre utilisé pour identifier l'élément à rechercher.

    Page.getAuthor ()

    Obtient l'auteur de la page s'il en existe un.


    Page.getDescription ()

    Obtient la description de la page si celle-ci est spécifiée.


    Page.getFavIconUrl ()

    Obtient l'URL FavIcon de la page.


    Page.getHtml ()

    Obtient la page brute HTML.


    Page.getKeywords ()

    Obtient les mots-clés de la page en cours de grattage.


    Page.getLastModified ()

    Obtient l'heure à laquelle la page Web a été modifiée pour la dernière fois, à partir des métadonnées de la page ou des en-têtes de réponse.


    Page.getPageNumber ()

    Obtient le numéro de page de l'URL en cours de suppression.


    Page.getPreviousUrl (index)

    Obtient l'URL précédente, un -1 indique la dernière URL, tandis qu'un nombre inférieur indique une URL antérieure.

    • index - facultatif, l'index de la page précédente à renvoyer. La valeur par défaut est -1.

    Page.getTagAttribute (attribut, filtre)

    Retourne la valeur d'attribut correspondante.

    • attribut - obligatoire, l'attribut à rechercher.
    • filter - facultatif, le filtre utilisé pour identifier l'élément à rechercher.

    Page.getTagAttributes (attribut, filtre, lié à)

    Renvoie les valeurs CSS correspondantes.

    • attribut - obligatoire, l'attribut CSS à rechercher.
    • filter - facultatif, le filtre utilisé pour identifier l'élément à rechercher.
    • linkedTo - facultatif, par la colonne à laquelle elle doit être liée, afin que les valeurs relatives soient conservées ensemble.

    Page.getTagCSSAttribute (attribut, filtre)

    Retourne la valeur CSS correspondante.

    • attribut - obligatoire, l'attribut CSS à rechercher.
    • filter - facultatif, le filtre utilisé pour identifier l'élément à rechercher.

    Page.getTagCSSAttributes (attribut, filtre, lié à)

    Renvoie les valeurs d'attribut correspondantes.

    • attribut - obligatoire, l'attribut à rechercher.
    • filter - facultatif, le filtre utilisé pour identifier l'élément à rechercher.
    • linkedTo - facultatif, par la colonne à laquelle elle doit être liée, afin que les valeurs relatives soient conservées ensemble.

    Page.getTagValue (filtre)

    Renvoie la valeur de l'élément correspondant.

    • filter - facultatif, le filtre utilisé pour identifier le ou les éléments à rechercher.

    Page.getTagValues ​​(filtre, lié à)

    Renvoie les valeurs de l'élément correspondant.

    • filter - facultatif, le filtre utilisé pour identifier le ou les éléments à rechercher.
    • linkedTo - facultatif, par la colonne à laquelle elle doit être liée, afin que les valeurs relatives soient conservées ensemble.

    Page.getText ()

    Obtient le texte visible de la page.


    Page.getTitle ()

    Obtient le titre de la page.


    Page.getUrl ()

    Obtient l'URL de la page.


    Page.getValueXPath (xpath)

    Retourne la valeur qui correspond au XPATH fourni.

    • xpath - requis, le XPATH doit correspondre à la valeur ou à l'attribut de l'élément.

    Page.getValuesXPath (xpath)

    Retourne les valeurs qui correspondent au XPATH fourni.

    • xpath - requis, le XPATH doit correspondre aux valeurs ou attributs de l'élément.

    Page.valid ()

    Renvoie true si l'URL en cours de grattage est une page Web valide.


    Utility.Array.clean (valeurs)

    Renvoie toutes les valeurs vides et non nulles du tableau de valeurs.

    • values ​​- requis, passez n'importe quel tableau de valeurs à nettoyer.

    Utility.Array.contains (valeurs)

    Renvoie true si l'aiguille est dans le tableau haystack.

    • needle - required, transmet toute valeur ou tout tableau de valeurs à rechercher.
    • haystack - requis, le tableau pour rechercher l’aiguille ou les aiguilles.

    Utility.Array.merge (array1, array2)

    Fusionne deux tableaux into un remplaçant une valeur vide ou nulle par une valeur du second tableau. Les deux tableaux doivent être de taille égale.

    • array1 - obligatoire, passe un tableau de valeurs à fusionner.
    • array2 - obligatoire, passe un tableau de valeurs à fusionner.

    Utility.Array.unique (valeurs)

    Renvoie les valeurs uniques du tableau de valeurs.

    • values ​​- requis, transmettez n'importe quel tableau de valeurs pour le rendre unique.

    Utility.Text.extractAddress (text)

    Extrait la première adresse électronique dans le paramètre de texte spécifié.

    • text - obligatoire, le texte à partir duquel extraire une adresse électronique.

    Utility.Text.extractAddresses (text)

    Extrait toutes les adresses électroniques du paramètre de texte spécifié.

    • text - obligatoire, le texte à partir duquel extraire toutes les adresses électroniques.

    Utility.Text.extractLocation (texte, langue)

    Extrait automatiquement le premier emplacement à partir du paramètre de texte spécifié.

    • text - obligatoire, le texte à partir duquel extraire l'emplacement.
    • langue - facultatif, langue du texte à extraire au format ISO 639-1 à deux lettres. La valeur par défaut est «en». Utilisez 'auto' pour tenter de détecter automatiquement la langue du texte.

    Utility.Text.extractLocations (texte, langue)

    Extrait automatiquement les emplacements à l'intérieur du paramètre de texte spécifié.

    • text - obligatoire, texte pour extraire les emplacements.
    • langue - facultatif, langue du texte à extraire au format ISO 639-1 à deux lettres. La valeur par défaut est «en». Utilisez 'auto' pour tenter de détecter automatiquement la langue du texte.

    Utility.Text.extractLanguageName (text)

    Extrait automatiquement la langue spécifiée à partir du paramètre text.

    • text - obligatoire, le texte à partir duquel extraire la langue.

    Utility.Text.extractLanguageCode (text)

    Extrait automatiquement la langue spécifiée à partir du paramètre text.

    • text - obligatoire, le texte à partir duquel extraire la langue.

    Utility.Text.extractName (texte, langue)

    Extrait automatiquement le prénom du paramètre de texte spécifié.

    • text - obligatoire, le texte à partir duquel extraire le nom.
    • langue - facultatif, langue du texte à extraire au format ISO 639-1 à deux lettres. La valeur par défaut est «en». Utilisez 'auto' pour tenter de détecter automatiquement la langue du texte.

    Utility.Text.extractNames (texte, langue)

    Extrait automatiquement les noms à l'intérieur du paramètre de texte spécifié.

    • text - obligatoire, le texte à partir duquel extraire le nom.
    • langue - facultatif, langue du texte à extraire au format ISO 639-1 à deux lettres. La valeur par défaut est «en». Utilisez 'auto' pour tenter de détecter automatiquement la langue du texte.

    Utility.Text.extractOrganization (texte, langue)

    Extrait automatiquement la première organisation à partir du paramètre de texte spécifié.

    • text - obligatoire, le texte à partir duquel extraire l'organisation.
    • langue - facultatif, langue du texte à extraire au format ISO 639-1 à deux lettres. La valeur par défaut est «en». Utilisez 'auto' pour tenter de détecter automatiquement la langue du texte.

    Utility.Text.extractOrganizations (texte, langue)

    Extrait automatiquement les organisations du paramètre de texte spécifié.

    • text - obligatoire, le texte à partir duquel extraire les organisations.
    • langue - facultatif, langue du texte à extraire au format ISO 639-1 à deux lettres. La valeur par défaut est «en». Utilisez 'auto' pour tenter de détecter automatiquement la langue du texte.

    Utility.Text.extractSentiment (text)

    Extrait automatiquement le sentiment à l'intérieur du paramètre de texte spécifié.

    • text - obligatoire, le texte pour extraire le sentiment.

    Utility.Image.extractText (urls, la langue)

    Tente d'utiliser la reconnaissance optique de caractères pour extraire du texte à partir d'images quelconques.

    • url - obligatoire, transmettez une URL ou un tableau d'URL d'images à partir desquelles vous souhaitez extraire du texte.
    • langue - facultatif, langue du texte à extraire au format ISO 639-1 à deux lettres. La valeur par défaut est «en».

    Utility.URL.addQueryStringParamètre (urls, valeur clé)

    Ajouter une requêtestring paramètre à n’importe quelle URL ou URL.

    • url - obligatoire, transmettez une URL ou un tableau d'URL auxquelles vous souhaitez ajouter une requête. string paramètre à.
    • key - requis, la clé du paramètre à ajouter.
    • valeur - obligatoire, la valeur du paramètre à ajouter.

    Utility.URL.getQueryStringParamètre (urls, clé)

    Obtient la valeur d'une requêtestring paramètre de toute URL ou URL.

    • url - obligatoire, transmettez une URL ou un tableau d'URL que vous souhaitez lire dans la requête.string paramètre de.
    • key - requis, la clé du paramètre à lire.

    Utility.URL.removeQueryStringParamètre (urls, clé)

    Supprimer une requêtestring paramètre de toute URL ou URL.

    • url - obligatoire, transmettez une URL ou un tableau d'URL pour lesquelles vous souhaitez supprimer une requête.string paramètre de.
    • key - requis, la clé du paramètre à supprimer.

    Utility.URL.exists (urls)

    Vérifiez si l'URL ou les URL existent réellement en appelant chaque URL.

    • url - obligatoire, transmettez une URL ou un tableau d'URL que vous souhaitez vérifier.