Surveiller un changement de page web avec urlwatch

urlwatch est un super outil pour surveiller les changements d'une page web. Il est facile à utiliser pour détecter un changement mais également en afficher la teneur à l'aide d'un diff.

Utilisation de base

  • on spécifie une liste d'URLs à surveiller dans un fichier /home/bob/liste-des-urls avec une URL par ligne
  • on exécute urlwatch avec cette commande :
urlwatch --urls=/home/toto/liste-des-urls
  • urlwatch conserve alors automatiquement une version de la page (par défaut dans ~/.urlwatch)
  • quand on l'exécute une nouvelle fois, une comparaison est faite et toute modification est mise en avant

Des filtres plus complexes

Il est possible de coder en Python des filtres spécifiques (applicables par exemple à certaines URLs seulement) : par exemple suppression des zones de publicité, suppression de parties de page non pertinentes, ... Quelques exemples sont donnés ici.

Et hop, dans cron, pour un suivi régulier !

On peut bien sûr placer la commande dans cron pour une surveillance régulière automatique. La commande ci-dessous exécute urlwatch et envoie les résultats (s'ils sont non vides) à une adresse électronique :

urlwatch --urls=/home/toto/liste-des-urls | ifne mail -s "URL Watcher - un changement !" bob@courriel.fr