Monitorare i cambiamenti di un sito Web

Watch

I Feed

Da sempre sono un amante dei feed. A mio avviso, ancora oggi non esiste modo migliore di raccogliere le notizie dalle proprie fonti preferite, raggrupparle e leggerle comodamente e a preferenza.

Moltissimi software di lettura si sono susseguiti nel corso degli anni, ce ne sono in giro ancora molti ma la tecnologia, purtroppo, è oggi considerata quasi obsoleta. Il problema non è, infatti, la tecnologia in se quanto il fatto che l'utonto...ehm, scusate...l'utente medio oggi preferisce leggere le notizie all'interno del Social Network preferito. D'altronde è risaputo: la notizia saputa dal famoso "amico-dell'-amico" viene da una fonte decisamente più autorevole rispetto ad un giornalista di professione o, ancora meglio, dal soggetto stesso del fatto.

Google stessa, nel 2013, ha dismesso l'ottima piattaforma Reader, a cui si appoggiavano anche moltissimi programmi di terze parti, tra cui i miei preferiti. Hanno pubblicamente ammesso che l'utilizzo era sciamato, nel corso degli anni.

Ho risolto installando l'ottimo Tiny Tiny RSS su uno dei miei server e la relativa app sugli smartphone. Ottimi risultati su Android, meno su Windows Phone poiché sia l'applicazione ufficiale che quella ufficiosa sono ancora abbastanza lacunose. E i feed sono sistemati.

E se la pagina non ha feed?

La situazione cambia quando il sito in oggetto non fornisce un feed. Fortunatamente ci sono ancora moltissime (e utili) pagine statiche che non presentano alcun apparente modo di controllare gli aggiornamenti. Alcune addirittura non scrivono (almeno visibilmente) la data dell'ultimo aggiornamento.

Ponendomi di fronte a questo problema, ho cercato in giro soluzioni. Dopo un paio di prove, mi sono stabilizzato con l'ottimo urlwatch. Scritto in python, è uno di quegli strumenti che fanno le cose come piace a me: in maniera semplice & rapida. Ci sono opzioni, ma possono essere bellamente ignorate e gestire tutto attraverso una semplice riga di comando e un file di testo di configurazione. Nessun xml, nessuna sintassi astrusa e nessun file di centinaia di righe da studiare: basta creare un semplicissimo file contenente, uno per riga, gli url da controllare. urlwatch, all'esecuzione successiva, effettuerà la prima imporazione delle pagine richieste e le metterà nella sua cache.

Eseguendolo successivamente, esso controllerà se ci sono modifiche e restituirà l'elenco di esse, sotto forma di cosa sia stato eliminato o aggiunto. L'output è eventualmente inviabile via e-mail o utilizzabile in qualsiasi modo si voglia. Io, nello specifico, controllo ogni giorno e, in caso di differenze, esse mi vengono inviate via e-mail.

Commenti