Outils pour capturer et convertir le Web

Comment extraire automatiquement des informations structurées à partir de texte non structuré?

Un texte écrit normal peut contenir de nombreuses informations difficiles à extraire. Par exemple, une phrase peut-être une critique d’entreprise, mais comment savoir si elle est bonne ou mauvaise?

Un racleur Web normal ne pourrait pas extraire ces informations. Cependant, GrabzIt peut en utilisant ses capacités de traitement du langage naturel intégrées. Comme indiqué dans l'exemple ci-dessous, le texte de la page est analysé et renvoie l'une des valeurs suivantes: Très négatif, Négatif, Neutre, Positif et Très positif.

Data.save(Utility.Text.extractSentiment(Page.getText()), 'Dataset', 'Sentiment');

Bien que Grattoir Web de GrabzIt peut extraire beaucoup plus de texte, y compris la détection de la langue, les noms d’emplacement, les noms de personnes et les noms d’organisations. Des exemples sont présentés ci-dessous.

//Language Detection
Data.save(Utility.Text.extractLanguageName(Page.getText()), 'Dataset', 'Language');
//Identify Geographic Locations
Data.save(Utility.Text.extractLocations(Page.getText()), 'Dataset', 'Locations');
//Identify People's Names
Data.save(Utility.Text.extractNames(Page.getText()), 'Dataset', 'Names');
//Identify Organizations Names
Data.save(Utility.Text.extractOrganizations(Page.getText()), 'Dataset', 'Organizations');

Vous n'êtes pas obligé d'écrire vous-même ces instructions de grattage, car elles apparaîtront automatiquement lorsque vous sélectionnerez un élément HTML applicable dans notre assistant de grattoir.