Supprimer les données du contenu des documents PDF n’est pas aussi flexible que celui des documents HTML. Toutefois, il existe encore de nombreuses façons d’y parvenir. Grattoir Web de GrabzIt. Premier à gratter le contenu PDF que vous utilisez le PDF
fonctions plutôt que la Page
fonctions, mais sinon les fonctions fonctionnent généralement de la même manière.
Un filtre pour un document PDF est beaucoup plus simple que pour un document HTML. Vous devez tout d'abord spécifier le type de contenu que vous souhaitez extraire: liens, images ou texte.
//Extract images PDF.getValue({"type":"image"}); //Extract links PDF.getValue({"type":"link"}); //Extract text PDF.getValue({"type":"text"});
Pour les liens et les images, vous pouvez limiter l'image ou le lien renvoyé en spécifiant sa position.
PDF.getValue({"type":"image","position":"2"});
Obtient la deuxième image d'un document. Pour le texte, les images et les liens, vous pouvez restreindre davantage les données renvoyées en spécifiant un numéro de page.
PDF.getValue({"type":"image","position":"2","page":"5"});
Cela retournera la deuxième image de la cinquième page. Le texte vient avec l'option supplémentaire de numéro de ligne, mais le texte ne supporte pas la position.
PDF.getValue({"type":"text","page":"5","line":"10"});
Cela obtient la dixième ligne de texte de la cinquième page. Autres que ces différences d’option de filtre, extraire des données de documents PDF fonctionne de manière très similaire à extraire des données de documents HTMLCependant, comme vous ne pouvez pas être aussi précis que ce que vous extrayez avec un filtre PDF, vous devrez peut-être spécifier un fichier. modèle extraire les informations correctes du texte.