Cercare vecchi siti web con Wayback Machine e altri archivi online

In molti credono che Internet sia eterno. Ma per alcuni siti web non è assolutamente così: non capita di rado che un sito web crashi perdendo tutti i contenuti, oppure che un sito web non sia proprio raggiungibile. Ancora, può succedere che un contenuto sparisca nonostante fosse online appena qualche giorno prima. I motivi per cui si cercano siti web già visitati sono innumerevoli. Ciò che almeno appare certo è che ciò che è perso, lo è per sempre. O perlomeno così si crede. E se non fosse così?

In realtà anche quando la pagina originale è stata cancellata, c’è ancora la possibilità di recuperarne il contenuto grazie ad alcune organizzazioni che creano “istantanee” di vecchi siti web. Con l’aiuto della tecnologia moderna, infatti, esse creano archivi di pagine web sotto forma di snapshot disponibili gratuitamente su Internet.

Il progetto di questo tipo più conosciuto è Wayback Machine. Questo servizio dell’Internet Archive Project archivia ampie porzioni del World Wide Web accessibile al pubblico dal 1996. Di seguito vi illustriamo il principio di funzionamento di Wayback Machine e vi presentiamo inoltre altre due alternative con cui è possibile visualizzare contenuti del passato.

Internet Archive Project: archiviazione di siti web, immagini, video e testi

Nel 1992 l’informatico e imprenditore statunitense Brewster Kahle vendette la sua prima azienda, il servizio di ricerca WAIS, per 15 milioni di dollari ad AOL. Con questo capitale costituì una nuova azienda, Alexa Internet, e un’organizzazione no-profit. Kahle cedette l’azienda dopo alcuni anni ad Amazon.com per ben 250 milioni di dollari. Così, avendo a disposizione risorse finanziarie enormi, destinò diversi milioni al suo progetto no-profit: Internet Archive.

Nell’ambito di questo progetto è stato sviluppato anche Wayback Machine: un archivio web che raccoglie gli snapshot di vecchi siti web, anche in diversi momenti nel tempo. Nell’immagine seguente potete vedere come appariva, ad esempio, la pagina iniziale di Facebook (all’epoca chiamato “Thefacebook”) il 12 febbraio del 2004, ovvero otto giorni dopo la prima pubblicazione online del sito.

Il progetto Internet Archive, come suggerisce il nome, è stato concepito come archivio web. Quando Kahle creò l’archivio nel 1996 utilizzò i dati del suo progetto Alexa Internet, che raccoglie gli accessi a siti web di domini di tutto il World Wide Web. Attualmente Alexa viene offerto da Amazon come servizio di analisi di marketing.

Inizialmente i siti web più popolari venivano considerati prioritari nell’Internet Archive. Secondo una ricerca di Forbes Magazin del 2015, il numero di snapshot di un sito web su archive.org (l’indirizzo web del progetto) non è sempre correlato all’Alexa Rank o alla frequenza degli aggiornamenti di un dominio. Sono ancora momentaneamente sconosciuti i metodi di selezione che il progetto utilizza per rilevare e salvare i siti web.

Cercare vecchi sit web, ma non solo: cosa offre Internet Archive

Nei suoi oltre vent’anni di storia Internet Archive è riuscito a ottenere diversi risultati. L’archivio di siti web vero e proprio è diventato una grande biblioteca virtuale. Secondo i dati forniti, archive.org nel 2015 utilizzava un enorme spazio di archiviazione di18,5 petabyte per i contenuti singoli (per un totale di 50 petabyte, ovvero 50 biliardi di byte), che da allora è cresciuto di alcuni terabyte ogni settimana. Secondo gli ultimi sondaggi, tramite Wayback Machine è possibile accedere a circa 327 miliardi di siti web archiviati. L’archivio include:

  • Testi e libri (circa 20 milioni)
  • Registrazioni audio (circa 5,3 milioni, di cui 202.000 live di concerti)
  • Video e produzioni tv (circa 5,1 milioni di cui 1,8 milioni di registrazioni di cronaca)
  • Immagini (circa 3,3 milioni)
  • Programmi software (circa 418.000)

(Dati aggiornati al mese di aprile 2019)

I media sono di dominio pubblico oppure vengono donati dai titolari dei diritti perché rimangano alle generazioni future. Ecco perché molti dei contenuti arrivano da università, organizzazioni governative come la NASA, progetti di digitalizzazione di testi come il Progetto Gutenberg o l’Arvix e anche da raccolte audio o cinematografiche come la Prelinger Collection, LibriVox o l’archivio di musica live Etree.

Kahle è un attivista della rete che si batte non solo per la libertà di Internet, ma più in generale anche per un accesso libero al sapere. Fu uno degli oppositori più popolari del cosiddetto “Micky-Maus Protection Act” (chiamato anche: Copyright Term Extension Act), il cui provvedimento fu sostenuto tra gli altri dalla Disney. Questa legge portò a un'estensione della legge americana sul diritto d'autore: da allora i diritti d’autore delle opere sono protetti fino a 70 anni (e non più 50, come prima)dopo la morte di un autore o di un illustratore. Secondo alcuni critici come Kahle, diritti di proprietà intellettuale così lunghi gioverebbero unicamente alle società di riciclaggio e le opere rimarrebbero inaccessibili alla collettività.

Nel 2007 lo Stato della California ha riconosciuto all'Internet Archive di Kahle lo status di biblioteca. Uno dei tanti data center in cui sono conservati i backup degli archivi si trova nella Biblioteca Alexandrina, inaugurata nel 2002 sotto l’egida dell’UNESCO.

Il sito web relativo archive-it.org collabora con numerose organizzazioni scientifiche che desiderano archiviare le loro collezioni in formato digitale.

Cercare vecchi siti web: i motivi dell’archiviazione

Internet è in continua evoluzione: una trasmissione dati più veloce permette di offrire nuovi servizi, mentre altri diventano obsoleti o vengono dimenticati. Le nuove informazioni spesso sostituiscono quelle precedenti o divenute obsolete, basti pensare ai portali di notizie o ad altri siti web dinamici. Gli articoli e le pagine web visualizzate in un certo momento potrebbero non risultare più visibili, ma può succedere che gli utenti desiderino poter vedere la versione precedente di un sito. Desiderio che può derivare da una semplice nostalgia, ad esempio quando si vorrebbe rileggere cosa c’era scritto sul proprio profilo Myspace in un certo periodo. Ci sono, però, anche ragioni economiche o legali del rintracciamento di versioni archiviate di siti web:

  • Il vostro sito è improvvisamente offline: potrebbero esserci problemi tecnici legati al servizio di hosting oppure non è stato versato il denaro previsto per l'importo mensile. Un archivio di siti web potrà consentirvi di trovare il contenuto perso.
  • Siete un giornalista, un blogger o uno scienziato e state lavorando a un articolo: sempre più spesso si trovano importanti fonti online in modo rapido. Se però la pagina di un link cambia, ai vostri lettori potranno mancare delle informazioni o le citazioni potrebbero non corrispondere più al contenuto della pagina collegata. Citando la fonte con uno snapshot e un timestamp (marca temporale), i lettori riusciranno sempre a rintracciare la fonte.
  • Gestite la SEO e sfruttate l’efficacia dei link di domini più vecchi. Grazie agli strumenti di archiviazione è possibile rimuovere i collegamenti difettosi o regolare le modifiche di pagina. Alcuni esperti SEO migliorano il proprio ranking con contenuti archiviati su reti di blog privati.
  • Avete bisogno di prove legali: quando si verificano insulti o minacce in rete, gli snapshot aiutano a documentare gli attacchi personali. Se i testi sono già stati cancellati dall'autore, è sufficiente utilizzare una versione precedente del sito web per raccogliere le prove. Inoltre l’archiviazione della documentazione dei processi lavorativi può essere utile anche per dirimere controversie brevettuali.

Tutorial su Wayback Machine: ricerca di vecchi siti web in 3 passi

Gestite un sito web ma non avete a disposizione una copia di backup? Potete recuperare i contenuti persi cercando gli snapshot del vostro vecchio sito su archive.org. I siti web archiviati si possono rintracciare in 3 soli passi.

Fatto

Uno snapshot (in italiano anche istantanea) è sempre un “fermo immagine” che descrive lo stato attuale di sistemi o di oggetti, come ad esempio un sito web. I collegamenti tra le sezioni rimangono tali, ma il sistema non cambia il proprio stato. Su archive.org diventa quindi possibile navigare tra le pagine web archiviate, anche se nello screenshot gli elementi dinamici come i moduli perdono la loro funzione.

  1. Inserite archive.org nella barra di ricerca. Per la ricerca di versioni precedenti di siti web, Wayback Machine vi offre tre opzioni:
  • Inserite direttamente l’URL desiderato nella barra di ricerca diWayback Machine in alto, come mostrato nell’immagine sottostante. Premete il tasto Invio per andare direttamente alla pagina dei risultati.
  • Cliccate sull’icona gialla per tornare alla pagina iniziale di Wayback. Qui è possibile inserire un dominio URL o provare altre funzioni. Per accedere a un sito web archiviato, inserite l'URL e cliccate su "Browse History".
  • Inserite un termine di ricerca nella barra di ricerca sottostante e selezionate "Search archived web sites". Poi cliccate su "Go" e arriverete alla lista dei risultati con i domini e le descrizioni dei siti web che contengono il termine di ricerca. Le singole voci mostrano il nome del dominio, la descrizione e il numero di snapshot in un determinato periodo di tempo. Riceverete anche informazioni sul numero di contenuti multimediali catturati. Fate clic sul risultato desiderato.
  1. Sulla pagina principale dell'URL che avete inserito (nell'esempio che segue gutenberg.org) vi apparirà una linea temporale sull'asse inferiore di un diagramma in cui a ogni data corrisponde una colonna nera. L'altezza di ogni colonna del grafico a barre indica la frequenza con cui i crawler di Wayback Machine hanno scansionato il dominio in quella data. Se non è visibile nessuna colonna, evidentemente in quella data non sono stati fatti screenshot. Nel 2007, ad esempio, ne sono stati effettuati pochissimi. Lo spazio vuoto corrispondente al mese di novembre indica che non ne è stato fatto nessuno. Nell’immagine sottostante è possibile notare informazioni grafiche sulle istantanee dell’anno 2015. La dimensione dei cerchi nel foglio del calendario mostra la frequenza con cui i crawler hanno catturato istantanee del vecchio sito web in un determinato giorno. I colori vengono utilizzati nel modo seguente:
  • blu per una scansione positiva tramite la pagina web
  • verde per i reindirizzamenti
  • arancione per un URL non trovato (errore 4xx)
  • rosso per un errore del server (errore 5xx)
  1. Selezionate un giorno in cui il vecchio sito web è stato catturato tramite screenshot. Le registrazioni ci sono solo nei giorni contrassegnati con i colori. Cliccando direttamente sulla data si accede agli snapshot della pagina. Se si tiene premuto il puntatore del mouse sopra la data, appariranno le diverse marche temporali (come mostrato sotto), ovvero gli orari esatti in cui è stato fatto uno snapshot.

Cliccando sulla marca temporale si accede allo screenshot del sito web archiviato, che mostra come appariva il sito web a quell’ora specifica. Alla marca temporale 19:38:40 (arancione), ad esempio, corrisponde il messaggio di errore 403, la marca temporale 21:54:09 mostra la pagina intera.

All'interno del sito web archiviato si naviga normalmente tramite link per raggiungere le sottopagine. I testi si possono copiare e si possono fare degli screenshot anche per salvare il layout e il design.

Fatto

Il nome Wayback Machine si ispira a un cartone animato americano degli anni ’60. In “Mr Peabody’s Improbable History” i personaggi Mr. Peabody e Sherman fanno un viaggio nella storia con una macchina del tempo chiamata “WABAC-Machine”.

Le opzioni “Summary of…” e “Site Map of…” (nell’immagine in alto direttamente sopra la linea temporale) vi offrono ulteriori possibilità. Il summary riepiloga quanti file di codice, immagini e file Flash sono stati individuati dai crawler. La sitemap, invece, rappresenta tutto il dominio con un anello. Una sezione di anello rappresenta una pagina web alla quale si può accedere direttamente con un clic.

Ritrovare siti web archiviati grazie ai self-snapshot

Se gestite un sito web o un blog oppure pubblicate il vostro lavoro con terzi potete usare Wayback Machine per salvare il contenuto. L’algoritmo di Wayback, infatti, non memorizza automaticamente tutto il World Wide Web. Possono esserci più motivi per cui archive.org non archivia alcuni siti web o non mostra determinati contenuti:

  • Il gestore non ha indicizzato il proprio sito web. (Comando: noindex)
  • Il robots.txt specifica che il sito web o parti di esso non devono essere indicizzate.
  • Il sito web non è protetto da password.
  • Il gestore del sito ha chiesto personalmente di rimuovere il sito dall'archivio.
  • La pagina è costituita in gran parte da elementi dinamici che non vengono visualizzati correttamente.

Pertanto, se desiderate archiviare il vostro sito web, dovete assicurarvi che i crawler di archivio siano in grado di riconoscere il dominio. A tal fine, procedete in questo modo:

  1. Andate sulla pagina iniziale di Wayback Machine (immagine sottostante). Una barra di scorrimento vi mostrerà i vecchi siti web che potrebbero essere d’interesse per gli utenti. In seguito troverete strumenti utili, il servizio di abbonamento per le istituzioni scientifiche e lo strumento Save Page Now.
  1. Se volete fare uno snapshot di un sito web, dovete conoscere l’URL del dominio. Inseritelo nella casella “Save Page Now” (l’indirizzo del dominio in forma semplice è sufficiente). Nell’esempio nell’immagine sottostante è: “douglasadams.com”.
  2. Si aprirà la finestra “Saving Page Now...” e quando il processo sarà completato vedrete uno snapshot del vostro sito web. In questo modo avrete protetto tutti i contenuti e i link per il futuro.
Consiglio

Poiché i crawler di archivio spesso non conoscono i siti web meno popolari, per i siti web orientati a livello regionale conviene crearsi regolarmente i propri snapshot.

Download di Wayback Machine per il ripristino di vecchi siti web

Wayback Machine consente di accedere a vecchie pagine web che non è possibile raggiungere con il loro precedente URL. Questo vi permette di trovare e salvare almeno il contenuto del testo della pagina corrispondente. Ma a volte serve qualcosa di più di un vecchio testo di un articolo. A volte il problema è più profondo. Magari la pagina non esiste più e nemmeno il backup può aiutarvi. Potreste aver bisogno di scaricare l'intero sito web per poter modificare o salvare il codice sorgente, filtrare i link non funzionanti o testare il vostro vecchio sito per l'ottimizzazione SEO. Tutto questo è possibile con il download di Wayback Machine.

Per utilizzare la versione open source del downloader di Wayback Machine su GitHub dovete prima installareRuby. Non è necessario essere un esperto di Ruby per usare il programma. I comandi di codice più importanti sono elencati direttamente sulla pagina di download. Se inserite l’URL desiderato, il programma scarica sul computer i file corrispondenti creando automaticamente pagine index.html, compatibili con Apache e NGINX. Gli utenti più esperti possono specificare, ad esempio, le impostazioni della marca temporale, filtri URL e snapshot.

Lo strumento basato sul web Archivarix dotato di un’interfaccia utente strutturata in maniera molto chiara è indicato per siti web di piccole dimensioni e blog. Questo servizio, che solitamente è a pagamento, è gratuito se utilizzato per siti web con meno di 200 file. Il periodo di prova è relativamente breve. Per utilizzare Archivarix è comunque necessario registrarsi; dopodiché potete semplicemente inserire il dominio desiderato e definire le opzioni di ottimizzazione e le strutture dei collegamenti con pochi clic. Infine, inserite il vostro indirizzoe-mail. Una volta completato il download dall'archivio, Archivarix invierà un file zip a questo indirizzo.

Un ulteriore strumento web è Wayback Machine Downloader (molti di questi strumenti hanno nomi molto simili, a volte persino identici). Anche questo strumento vi invia copie delle vecchie pagine Internet via e-mail. La demo gratuita include le prime quattro pagine di Wayback Machine. Un sito web HTML completo costa circa 15 €, la conversione a WordPress circa 45 € (maggio 2018). L’abbonamento (attualmente 80 €) conviene se scaricate un numero elevato di domini al mese.

Archive.org non offre un proprio strumento di download di siti web. In qualità di membro della biblioteca, ovvero di utente registrato, avete a disposizione milioni di testi, immagini e file audio da scaricare. Se si possiedono i diritti di un'opera, è possibile caricarla per uso non commerciale di pubblicodominio, proprio come fa la NASA con gran parte del suo materiale audiovisivo. Il video seguente, prodotto dalla ISS, è archiviato ad esempio come opera di pubblico dominio con licenza Creative Commons.

Il team del progetto Open Library mira a categorizzare i libri nel modo più completo possibile. Inoltre, diversi libri, alcuni dei quali sono ospitati da terzi, possono essere presi in prestito dagli utenti per due settimane. In una categoria a parte troverete gli e-book e i testi dall'Internet Archive che solitamente possono essere scaricati gratuitamente.

Citazione

It's not that expensive. For the cost of 60 miles of highway, we can have a 10 million-book digital library available to a generation that is growing up reading on-screen. Our job is to put the best works of humankind within reach of that generation. (Non è particolarmente costoso. Allo stesso costo che comporterebbe la costruzione di 60 miglia di autostrada, siamo in grado di fornire una biblioteca digitale di 10 milioni di libri per una generazione che impara a leggere sullo schermo. La nostra missione è quella di avvicinare le migliori opere dell'umanità a questa generazione.) Brewster Kahle: How Google Threatens Books, Washington Post, 5/2009

Alternativa 1: cercare siti web non particolarmente vecchi tramite Google

Se le informazioni che state cercando non sono così vecchie, una semplice ricerca con Google potrebbe essere sufficiente: proprio come Wayback Machine, Google usa i crawler per scansionare e indicizzare i siti web, facendo uno snapshot dell'intero sito web. Se la situazione è cambiata rispetto all'ultimo crawl, Google salva nella cache lo snapshot della vecchia versione del sito web. Il nuovo snapshot serve come anteprima attuale.

Se il sito web on line non funziona per un breve periodo di tempo, non si verificano fenomeni di congestione proprio grazie alla presenza di un'ulteriore versione nella cache. Quindi la pagina memorizzata nella cache ha un'unica marca temporale, ma questa può essere più recente di uno snapshot dell'Internet Archive. Se archive.org non dispone di alcun sito web archiviato per questo dominio, Google potrebbe addirittura essere l'unico modo per trovare uno screenshot della pagina.

Per visualizzare la versione più recente del vostro sito web inserite semplicemente un termine di ricerca su Google. Nella lista dei risultati l'URL dovrebbe apparire sotto il titolo della pagina. Facendo clic sulla freccia a destra apparirà un piccolo menu a discesa (come mostrato nell'immagine che segue). Cliccando su "cache" Google scaricherà per voi il sito nella versione precedente al vostro ultimo aggiornamento.

A volte la versione corrente di una pagina potrebbe non apparire nell'elenco dei risultati di Google. Questo può accadere se il proprietario del sito ha impostato il dominio su “noindex”. Ciò indica che il motore di ricerca non dovrebbe includere la pagina nella sua raccolta. Eventualmente si potrebbe cercare una versione archiviata del sito web nella cache. Se volete accedere a un vecchio sito web, ma non riuscite a trovarlo tra i risultati di ricerca, inserite nella barra degli indirizzi il seguente comando di Google:

http://webcache.googleusercontent.com/search?q=cache:https://www.DOMAIN.com

Nell'esempio precedente “DOMAIN.com” sta per l’URL che state cercando. Nell’immagine sottostante potete vedere la versione cache di archive.org, rispetto a come Google ha registrato il sito web il 24 aprile 2018. Da notare come anche gli snapshot di Google non mostrano la maggior parte degli elementi dinamici e dei contenuti multimediali.

Alternativa 2: cercare riferimenti di siti web archiviati con WebCite

Giornalisti, blogger e accademici ricorrono sempre più spesso a risorse online. Così come le pubblicazioni scientifiche stampate elencano le loro fonti nella bibliografia, anche molti testi online contengono riferimenti di questo tipo, in genere sotto forma di link che riconducono direttamente alla fonte online utilizzata. Tuttavia, poiché i siti web possono cambiare o essere rimossi dalla rete, c'è il rischio che questi link non portino più ai testi corrispondenti.

Se il collegamento è obsoleto, i lettori potrebbero vedere qualcosa di completamente diverso rispetto alla ricerca iniziale dell’autore. Per evitare questo inconveniente, l’organizzazione WebCite® offre un servizio di archiviazione che vi permette di salvare le fonti come snapshot e allo stesso tempo di generare riferimenti che i vostri lettori potranno a loro volta utilizzare. Usando un link di destinazione o l'ID dello snapshot si visualizza direttamente la fonte.

Come archiviare le proprie fonti con WebCite:

  1. Nella homepage di WebCite, direttamente sotto il nome del dominio, troverete il menu principale. Selezionate la voce “Comb” (sfogliare).
  2. Vi apparirà il modulo per l’archiviazione (“archive form”). Se il vostro documento è già online, inserite l’URL nel primo campo di ricerca, come nell’immagine sottostante (“URL to comb for links”). Se il testo non è stato ancora caricato, ma ci sono già i riferimenti ipertestuali, è sufficiente caricare il file. Cliccate su “Sfoglia”. Inserendo il vostro indirizzo e-mail WebCite vi invierà successivamente l’elenco con gli URL degli snapshot archiviati. Cliccate su “Comb this URL”.
  1. Dopo qualche minuto il sito web mostra un elenco di possibili link. Selezionate le vostre fonti spuntando la casella accanto ad esse. Cliccate sul pulsante “Cache these URLs” al termine dell'elenco.
  2. Nella finestra un messaggio vi indicherà che le fonti sono in coda per l'archiviazione. Oltre al link originale, riceverete anche il link del vostro snapshot. Mettendo semplicemente questo link al vostro riferimento, i vostri lettori potranno accedere alla stessa versione della fonte che avete utilizzato per il vostro lavoro, anche dopo anni e se il vecchio sito web non esiste più.
N.B.

Se pubblicate i vostri testi su una piattaforma con molti link, i crawler di WebCite li includono nella loro selezione con una gestione dell'elenco piuttosto complicata. In questo caso si consiglia di caricare il documento direttamente sull'hard disk.

Se desiderate archiviare una singola fonte o il vostro lavoro, potete utilizzare questo semplice strumento di archiviazione. Cliccate sulla voce “Archive” nel menu principale. Nel modulo per le singole fonti inserite l'URL della fonte da citare, il vostro indirizzo e-mail e la lingua di archiviazione. Quando inserite i metadati (titolo, autore, ecc.), WebCite crea un riferimento alla fonte. Se i metadati della pagina web esistono già, il programma può aggiungerli automaticamente. Cliccate su “Submit” e successivamente riceverete un'e-mail con il link dello snapshot e della fonte.

Come specificare un vecchio sito come fonte non modificabile:

  • Cliccate sulla voce “Search” nel menu principale e vi apparirà l’interfaccia di ricerca.
  • Per cercare direttamente le pagine web archiviate inserite l'URL del dominio nel primo campo di ricerca (accanto a “URL to find snapshots of”), come mostrato nell’immagine sottostante. Inserite il Timestamp nella forma YYYYMM (Y=year, M=month). Altrimenti cliccando su “Search” sarete rinviati al dominio nella cache, senza però l’intestazione di WebCite per poter passare da una marca temporale all’altra.
  • Invece di sfogliare l'URL, è possibile specificare direttamente l'ID dello snapshot per accedere a una versione del sito web memorizzata in un momento specifico.
Fatto

Chiunque abbia mai cercato invano un vecchio sito web apprezzerà gli strumenti qui presentati. Wayback Machine è probabilmente l'archivio Internet più completo. La sua interfaccia user-friendly consente anche agli utenti inesperti di trovare vecchi siti web o di archiviarli autonomamente. Se state cercando siti web recentemente persi potete provare con Google Cache. WebCite, invece, si basa su un processo di verifica che precede l'archiviazione dei siti web, risultando particolarmente adatto per testi accademici che richiedono riferimenti tracciabili.