Spesso sorge la necessità di trovare o ri­pri­sti­na­re vecchie pagine web. Con strumenti come Wayback Machine, la cache di Google o WebCite, puoi accedere a siti web antichi, ri­pri­sti­na­re vecchi siti internet o trovare una vecchia homepage.

Crea il tuo sito web
Scopri le nuovi funzioni IA di MyWebsite
  • Editor facile e intuitivo con supporto IA
  • Immagini e testi d'effetto in pochi secondi
  • Dominio, indirizzo e-mail e cer­ti­fi­ca­to SSL inclusi

Perché può essere utile trovare e ri­pri­sti­na­re vecchie pagine internet?

  • Pagine offline: problemi tecnici o servizi di hosting can­cel­la­ti rendono i contenuti inac­ces­si­bi­li, ma grazie agli archivi rimangono con­ser­va­ti. In questo modo, è possibile trovare vecchie pagine web anche se il sito originale non esiste più.
  • Ricerca e verifica delle fonti: i gior­na­li­sti, i blogger e gli scien­zia­ti possono con­trol­la­re le versioni pre­ce­den­ti e citarle in modo chiaro.
  • Scopi SEO: i contenuti ar­chi­via­ti aiutano a con­trol­la­re i link, do­cu­men­ta­re le modifiche e sfruttare la potenza dei link di vecchi domini.
  • Con­ser­va­zio­ne delle prove legali: gli screen­shot e i contenuti ar­chi­via­ti servono come prova in caso di insulti, minacce o processi di lavoro.

Progetto Internet Archive: vecchie pagine internet e altro

Internet Archive è un progetto non-profit di Brewster Kahle che archivia contenuti digitali dal 1996. Il cuore del progetto è Wayback Machine, con cui puoi trovare vecchi siti web e vi­sua­liz­za­re screen­shot storici, testi, immagini o video. I primi siti web ar­chi­via­ti risalgono al 1996. Wayback Machine contiene oltre 300 miliardi di pagine ar­chi­via­te. Così, è possibile re­cu­pe­ra­re vecchie pagine internet e trovare un vecchio sito.

Oltre ai siti web, il progetto Internet Archive raccoglie anche:

  • Testi e libri
  • Re­gi­stra­zio­ni audio, inclusi concerti dal vivo
  • Video e con­tri­bu­ti te­le­vi­si­vi
  • Immagini
  • Programmi software

I contenuti pro­ven­go­no dalla comunità o sono donati dai titolari dei diritti. Molti contenuti pro­ven­go­no da uni­ver­si­tà, or­ga­niz­za­zio­ni go­ver­na­ti­ve o progetti di di­gi­ta­liz­za­zio­ne come Project Gutenberg e LibriVox.

Tutorial su Wayback Machine: trovare vecchie pagine web e ar­chi­viar­le

Se i contenuti del tuo sito web vengono persi o desideri vi­sua­liz­za­re versioni pre­ce­den­ti di una pagina, Wayback Machine può aiutarti. In pochi passaggi puoi trovare vecchi siti web, accedere alle pagine e persino ar­chi­viar­le.

Primo passaggio: inserire l’URL di­ret­ta­men­te

Inserisci il dominio de­si­de­ra­to nella barra di ricerca in alto e premi Invio per accedere di­ret­ta­men­te alla pagina dei risultati.

Immagine: Funzione della barra di ricerca di Wayback Machine
Digita sem­pli­ce­men­te l’URL del sito che stai cercando nella barra di ricerca.

Secondo passaggio: accedere alla pagina prin­ci­pa­le di Wayback

Fai clic sull’icona gialla del web per andare alla pagina prin­ci­pa­le. Qui puoi inserire un URL di dominio e cliccare su “Browse History” per vedere le versioni ar­chi­via­te.

Immagine: Archivio di Wayback Machine
Fai clic nell’archivio di Wayback Machine.

Terzo passaggio: cercare per parole chiave

Inserisci il termine di ricerca nella barra di ricerca inferiore e seleziona “search archived web sites”. Clicca su “Go” per ottenere l’elenco dei risultati, che mostra dominio, de­scri­zio­ne, snapshot e re­gi­stra­zio­ni mul­ti­me­dia­li.

Immagine: Ricerca per parole chiave
Seleziona qui i criteri con cui desideri cercare un sito web.
Fatto

Uno snapshot è un’istan­ta­nea di un sito web. Gli elementi dinamici come i moduli non fun­zio­na­no, ma i contenuti possono essere letti o copiati.

Quarto passaggio: uti­liz­za­re la timeline e gli snapshot

Per ogni URL ar­chi­via­to, Wayback Machine mostra una timeline con colonne per il numero di snapshot per data. Nella vista del ca­len­da­rio, gli snapshot sono co­di­fi­ca­ti a colori:

  • Blu: scansione riuscita
  • Verde: rein­di­riz­za­men­ti
  • Arancione: URL non trovato (4xx)
  • Rosso: errore del server (5xx)

Come uti­liz­za­re la timeline:

  1. Clicca su una data segnata con un colore.
  2. Seleziona la marca temporale de­si­de­ra­ta per vedere lo screen­shot del sito ar­chi­via­to.
  3. Naviga all’interno della pagina come di consueto e copia i contenuti se ne­ces­sa­rio.
Immagine: Rappresentazione degli screenshot di gutenberg.org
I cerchi verdi e arancioni indicano che i crawler hanno re­gi­stra­to almeno un tentativo di rein­di­riz­za­men­to, che cor­ri­spon­de all’URL non trovato. Tuttavia, ciò potrebbe non ri­guar­da­re ogni tentativo di quel giorno.

Quinto passaggio: ar­chi­via­re il proprio sito web (self-snapshot)

Non tutti i siti web vengono ar­chi­via­ti au­to­ma­ti­ca­men­te. I motivi possono essere:

  • Un tag noindex o una voce cor­ri­spon­den­te nel file robots.txt che ne evita l’in­di­ciz­za­zio­ne
  • Contenuti protetti da password
  • Rimozione manuale dall’archivio
  • Contenuti dinamici che non vengono rilevati cor­ret­ta­men­te

Come pro­teg­ge­re il tuo sito web:

  1. Vai alla pagina prin­ci­pa­le di Wayback Machine.
  2. Utilizza il campo “Save Page Now” e inserisci il tuo dominio.
Immagine: Salva sito web
Inserisci qui il tuo dominio per salvare il sito.
  1. Dopo poco tempo, Wayback Machine crea uno snapshot che viene salvato in modo per­ma­nen­te. In questo modo puoi trovare vecchi siti web anche se la pagina online non è più di­spo­ni­bi­le.
Consiglio

Per siti meno noti o regionali, vale la pena creare re­go­lar­men­te propri snapshot.

Sito web con dominio
Crea il tuo sito web per­so­na­liz­za­to

MyWebsite Now Starter è lo strumento pensato per i prin­ci­pian­ti che vogliono creare un sito web in modo intuitivo. Include dominio e indirizzo e-mail.

Come scaricare vecchie pagine web?

Per un utilizzo più avanzato, ad esempio codice sorgente, link o test SEO, ci sono strumenti come:

  • Wayback-Machine-Do­wn­loa­der (GitHub, open source): scarica file HTML, file mul­ti­me­dia­li e pagine indice.
  • Ar­chi­va­rix (basato sul web): gratuito per siti fino a 200 file; download ZIP dopo re­gi­stra­zio­ne.
  • HTTrack Website Copier: strumento classico per scaricare interi siti web (anche pagine di archivio, se si spe­ci­fi­ca­no gli URL di Wayback).

Archive.org non offre un do­wn­loa­der di siti web, ma permette di scaricare testi, immagini e file audio, se si dispone dei relativi diritti.

Al­ter­na­ti­va 1: trovare siti web non così vecchi con la ricerca Google

Se l’in­for­ma­zio­ne cercata è ancora re­la­ti­va­men­te attuale, una semplice ricerca su Google può bastare. I crawler di Google re­gi­stra­no le pagine web in modo simile a Wayback Machine e me­mo­riz­za­no uno snapshot nella cache. In questo modo viene mostrata l’ultima versione in­di­ciz­za­ta della pagina. Se il sito live non è mo­men­ta­nea­men­te di­spo­ni­bi­le, è possibile uti­liz­za­re la cache. Rispetto ad archive.org, questo snapshot è spesso più ag­gior­na­to; tuttavia, vi è solo una marca temporale per versione.

Per ri­chia­ma­re la versione me­mo­riz­za­ta nella cache di una pagina, puoi uti­liz­za­re di­ret­ta­men­te il seguente comando nella barra degli indirizzi del tuo browser:

http://webcache.googleusercontent.com/search?q=cache:https://www.DOMAIN.com

In questo caso, so­sti­tui­sci DOMAIN.com con l’URL de­si­de­ra­to. Tieni presente che anche gli snapshot di Google non mostrano la maggior parte degli elementi dinamici o dei contenuti mul­ti­me­dia­li.

Consiglio

Anche se una pagina è impostata su noindex e non appare nei risultati di ricerca, la cache può talvolta fornire una versione pre­ce­den­te.

Al­ter­na­ti­va 2: accesso a siti web già ar­chi­via­ti con WebCite

WebCite consente di accedere a siti web già ar­chi­via­ti e di citarli. Tuttavia, at­tual­men­te non vengono più accettate nuove richieste di ar­chi­via­zio­ne. Gli snapshot già ar­chi­via­ti possono ancora essere con­sul­ta­ti e uti­liz­za­ti nelle citazioni. In questo modo è possibile ri­pri­sti­na­re e aprire vecchie pagine web.

Per accedere a una versione ar­chi­via­ta di un sito web, visita il sito WebCite e utilizza la funzione di ricerca per inserire il dominio o l’ID dello snapshot. In questo modo puoi vi­sua­liz­za­re le versioni pre­ce­den­ti dei siti web già ar­chi­via­ti e indicarle come fonte inal­te­ra­bi­le.

Immagine: Funzione di ricerca di WebCite
Inserisci l’URL del dominio che stai ri­cer­can­do nel campo di ricerca.
Vai al menu prin­ci­pa­le