Outils pour capturer et convertir le Web

Le Web Scraper de GrabzIt respecte-t-il les fichiers robots.txt?

Notre Web Scraper doit respecter les règles trouvées dans le fichier robots.txt d'un site Web. L'une des principales raisons, outre le fait d'être gentil, est que les web scrapers qui ne suivent pas le fichier robots.txt peuvent se retrouver sur la liste noire d'un service honeypot.

Ces services utilisent le fichier robots.txt pour indiquer à un grattoir Web de ne pas visiter un certain fichier lié au site Web. Si le grattoir Web visite toujours le fichier, l'adresse IP du grattoir Web est mise sur liste noire, empêchant le grattoir Web de visiter le site Web à l'avenir.