Outils pour capturer et convertir le Web

Améliorations apportées au racleur Web pour 2019

08 Mars 2019

En plus d'une refonte et d'une tonne de corrections de bugs, nous avons apporté des améliorations drastiques au web scraper de GrabzIt, notamment :

  • Prise en charge de l'extraction du contenu contenu dans les styles CSS
  • Vous pouvez désormais choisir le pays à partir duquel un scrape est exécuté. Pour le moment, les choix se portent sur les États-Unis ou le Royaume-Uni.
  • Vous pouvez désormais choisir si vous respectez ou non les règles du robots.txt. Par défaut, un scratch le fait.
  • Les données relatives peuvent désormais être automatiquement associées, ce qui est utile lorsque vous disposez de données présentes sur certains éléments HTML mais pas sur d'autres. En associant ces éléments ensemble, les valeurs apparaîtront par rapport aux éléments de données corrects dans l'ensemble de données résultant.
  • Lors de la création d'un ensemble de données, différentes colonnes peuvent appartenir à différents modèles, ce qui signifie que certaines colonnes peuvent être renseignées à partir d'un type de page et d'autres colonnes à partir de différents types de page. Un exemple de ceci serait une page de liste de produits et une page de détails de produit. Cela vous permettrait d'obtenir les détails généraux de la page de liste, puis les informations détaillées de la page de détail du produit.
  • Une autre façon dont le générateur d'ensembles de données a été amélioré consiste à permettre aux effets d'une opération, telle que contient, moins que etc, d'être appliqués à toutes ou à certaines colonnes.
  • Il y a maintenant plusieurs nouvelles commandes disponible à partir de l'assistant de scrape.
    • Supprimer – vous pouvez désormais supprimer des éléments, ce qui est utile dans certaines circonstances pour empêcher la lecture multiple des mêmes éléments.
    • Défilement – ​​le web scraper peut désormais faire défiler les éléments HTML qui le prennent en charge.
    • Survol – cette commande passera la souris au-dessus d’un élément spécifié, ce qui peut être utile pour révéler des informations.
    • Pagination – il s'agit d'une nouvelle fonctionnalité pour l'action Clic et permet d'effectuer automatiquement la pagination sur les liens de pagination sélectionnés. Cela signifie que même si le scraper clique quelque part dans les données paginées, dans le cadre du scraping, il retrouvera son chemin vers la page paginée actuelle pour continuer le scraping.
  • La meilleure partie de GrabzIt's Grattoir Web c'est que vous pouvez en bénéficier gratuitement chaque mois. Alors qu'attendez-vous pour essayer et faites-nous part de vos commentaires, nous serions ravis de faire du nôtre le meilleur grattoir Web en ligne !

Voir les derniers articles du blog