Outils pour capturer et convertir le Web

Le Web Scraper de GrabzIt respecte-t-il les fichiers robots.txt?

Notre Web Scraper doit respecter les règles d'un fichier robots.txt de sites Web. Une des raisons principales de cela, outre le fait qu’elle soit agréable, est que les scrapeurs Web qui ne suivent pas le fichier robots.txt peuvent se retrouver sur une liste noire par un service de pots de miel.

Ces services utilisent le fichier robots.txt pour indiquer à un utilisateur de ne pas consulter un fichier lié au site Web. Si le racleur Web continue de visiter le fichier, l'adresse IP de celui-ci apparaît alors sur une liste noire, empêchant celui-ci de consulter le site Web à l'avenir.