Outils pour capturer et convertir le Web

Grattez les adresses email d'un site web

Les deux exemples suivants font partie du même modèle.

Grattoir Web de GrabzIt fournit plusieurs méthodes spéciales pour faciliter l'extraction des adresses électroniques d'un site Web. L’exemple ci-dessous obtient tout le contenu HTML d’une page Web, puis le transmet à travers le Utility.Text.extractAddresses méthode pour trouver toutes les adresses électroniques valides avant de les enregistrer into un jeu de données, qui est ensuite envoyé à l'utilisateur.

Alternativement, seule la première adresse e-mail correspondante peut être extraite à l'aide de la commande Utility.Text.extractAddress méthode.

Data.save(Utility.Text.extractAddresses(Page.getHtml()));

Grattez les adresses email des documents PDF

Les documents PDF peuvent également être grattés pour les adresses électroniques de la même manière que les pages Web ci-dessus. Comme vous pouvez le voir dans l'exemple ci-dessous, le processus est exactement le même, sauf que le PDF.getText() méthode est utilisée au lieu de Page.getHtml() méthode.

Data.save(Utility.Text.extractAddresses(PDF.getText()));

Grattez les adresses email des images

GrabzIt a la capacité de extraire le texte des images cela signifie que cette capacité peut également être exploitée pour extraire des adresses électroniques à partir d'images. L'exemple ci-dessous extrait les adresses électroniques de toutes les images d'une page Web.

Data.save(Utility.Text.extractAddresses(Utility.Image.extractText(Page.getTagAttributes('src', {"tag":{"equals":"img"}}))));

Bien que les instructions ci-dessous décrivent l'extraction d'adresses électroniques à partir d'images trouvées dans des documents PDF.

Data.save(Utility.Text.extractAddresses(Utility.Image.extractText(PDF.getValue({"type":"image"}))));