Outils pour capturer et convertir le Web

Extraction de données à partir de documents PDF

Supprimer les données du contenu des documents PDF n’est pas aussi flexible que celui des documents HTML. Toutefois, il existe encore de nombreuses façons d’y parvenir. Grattoir Web de GrabzIt. Premier à gratter le contenu PDF que vous utilisez le PDF fonctions plutôt que la Page fonctions, mais sinon les fonctions fonctionnent généralement de la même manière.

Un filtre pour un document PDF est beaucoup plus simple que pour un document HTML. Vous devez tout d'abord spécifier le type de contenu que vous souhaitez extraire: liens, images ou texte.

//Extract images
PDF.getValue({"type":"image"});
//Extract links
PDF.getValue({"type":"link"});
//Extract text
PDF.getValue({"type":"text"});

Pour les liens et les images, vous pouvez limiter l'image ou le lien renvoyé en spécifiant sa position.

PDF.getValue({"type":"image","position":"2"});

Obtient la deuxième image d'un document. Pour le texte, les images et les liens, vous pouvez restreindre davantage les données renvoyées en spécifiant un numéro de page.

PDF.getValue({"type":"image","position":"2","page":"5"});

Cela retournera la deuxième image de la cinquième page. Le texte vient avec l'option supplémentaire de numéro de ligne, mais le texte ne supporte pas la position.

PDF.getValue({"type":"text","page":"5","line":"10"});

Cela obtient la dixième ligne de texte de la cinquième page. Autres que ces différences d’option de filtre, extraire des données de documents PDF fonctionne de manière très similaire à extraire des données de documents HTMLCependant, comme vous ne pouvez pas être aussi précis que ce que vous extrayez avec un filtre PDF, vous devrez peut-être spécifier un fichier. modèle extraire les informations correctes du texte.