Grattoir Web de GrabzIt fournit plusieurs méthodes spéciales pour faciliter l'extraction des adresses électroniques d'un site Web. L’exemple ci-dessous obtient tout le contenu HTML d’une page Web, puis le transmet à travers le Utility.Text.extractAddresses
méthode pour trouver toutes les adresses électroniques valides avant de les enregistrer into un jeu de données, qui est ensuite envoyé à l'utilisateur.
Alternativement, seule la première adresse e-mail correspondante peut être extraite à l'aide de la commande Utility.Text.extractAddress
méthode.
Data.save(Utility.Text.extractAddresses(Page.getHtml()));
Les documents PDF peuvent également être grattés pour les adresses électroniques de la même manière que les pages Web ci-dessus. Comme vous pouvez le voir dans l'exemple ci-dessous, le processus est exactement le même, sauf que le PDF.getText()
méthode est utilisée au lieu de Page.getHtml()
méthode.
Data.save(Utility.Text.extractAddresses(PDF.getText()));
GrabzIt a la capacité de extraire le texte des images cela signifie que cette capacité peut également être exploitée pour extraire des adresses électroniques à partir d'images. L'exemple ci-dessous extrait les adresses électroniques de toutes les images d'une page Web.
Data.save(Utility.Text.extractAddresses(Utility.Image.extractText(Page.getTagAttributes('src', {"tag":{"equals":"img"}}))));
Bien que les instructions ci-dessous décrivent l'extraction d'adresses électroniques à partir d'images trouvées dans des documents PDF.
Data.save(Utility.Text.extractAddresses(Utility.Image.extractText(PDF.getValue({"type":"image"}))));