sitemap.xml: tutto quello che c’è da sapere su funzioni e generazione di una sitemap XML

Chi si preoccupa intensamente del ranking del proprio sito web nelle pagine dei risultati dei motori di ricerca sa esattamente quanti fattori diversi influenzano la lotta per i primi posti. Ad esempio l'elenco dei fattori che influenzano il ranking di Google comprende oltre 200 criteri, alcuni dei quali sono stati confermati ufficialmente dall'azienda, mentre altri sono stati solamente dedotti da esperti.

Non è un caso che l'ottimizzazione per i motori di ricerca faccia parte da anni del repertorio standard di ogni webmaster che vuole che il proprio sito web sia visibile e accessibile. Mentre fattori come keyword rilevanti, contenuti di alta qualità o un alto livello di responsività sono sulla bocca di tutti, il valore di una buona sitemap XML è spesso sottovalutato.

Cos’è una sitemap XML?

Una sitemap XML (sitemap.xml) è un file di testo in formato XML (Extensible Markup Language) che contiene un elenco di tutte le sottopagine di un sito web sotto forma di link. Come tale, può essere caricato nella Google Search Console o su Bing Webmaster Tools per notificare ai crawler dei motori di ricerca tutte le pagine disponibili e rilevanti, velocizzando e ottimizzando così il processo di indicizzazione.

Le sitemap XML devono soddisfare i requisiti del protocollo Sitemap, che è stato adottato come standard da Google, Yahoo e Microsoft nel 2006 con l'obiettivo di migliorare la qualità dei risultati di ricerca forniti nel lungo periodo. Pertanto sono obbligatori la codifica in UTF-8 e il già utilizzato linguaggio di markup XML nonché l'uso di codici entità per alcuni caratteri (come "&gt" invece di ">").

N.B.

Le sitemap XML sono diverse dalle sitemap che molti CMS visualizzano automaticamente sul front end. In quest’ultimo caso si tratta dell'indice del sito web che ha lo scopo di rendere la navigazione più facile ai visitatori, mentre di default le sitemap non sono visibili agli utenti, anche se è generalmente possibile renderle accessibili tramite il loro URL.

I vantaggi di una sitemap XML

Anche se non vi è alcuna garanzia che l'indicizzazione su Google e simili sia ottimizzata dall’uso di sitemap XML, quel che è certo è che le directory di link strutturate contribuiscono ad aumentarne le possibilità. L'indice adatto ai crawler può dare i suoi frutti, soprattutto per le pagine con contenuti dinamici soggette a continui cambiamenti. Lo stesso vale per i progetti web più grandi che hanno un gran numero di sottopagine ma non (ancora) una grande struttura di backlink. Tali pagine tendono a essere controllate troppo raramente in cerca di aggiornamenti o vengono addirittura ignorate dai radar dei motori di ricerca. Grazie a sitemap.xml è però possibile portarle più rapidamente al centro dell'attenzione dei bot di indicizzazione.

Un altro vantaggio delle XML sitemap è che sono in grado di elencare non solo gli URL di sottopagine, ma anche di file multimediali come video o immagini. Per questi ci sono anche tag extra che indicano al crawler di che tipo di contenuto si tratta (<image>, <video>). Inoltre è possibile utilizzare degli attributi che descrivono il contenuto in modo più dettagliato o specificano la durata in modo che i motori di ricerca possano catturarlo in modo ottimale. C'è anche una versione speciale delle sitemap XML per i portali di news, che promette un'indicizzazione ottimizzata degli articoli grazie ad attributi specifici come il genere, la data di pubblicazione o il titolo.

Consiglio

L’impegno necessario per creare manualmente una sitemap XML dovrebbe essere visto come uno svantaggio di una tale directory strutturale per il proprio sito web. Tuttavia, grazie ai generatori di sitemap come quello online di Sitemaps.com, non c'è bisogno di occuparsene da soli. Per la maggior parte dei Content Management System sono anche disponibili dei plug-in che automatizzano la creazione di sitemap XML.

Generare una sitemap XML: quali sono i componenti principali?

Come per qualsiasi documento nel linguaggio di Extensible Markup, la formattazione di ogni sitemap XML funziona con tag XML. Secondo l'attuale standard "Sitemaps 0.9", sono tre i tag obbligatori per poter parlare di una sitemap XML:

sitemap.xml: tag obbligatori

<urlset>, </urlset>

Ogni file sitemap XML deve iniziare con un tag <urlset> di apertura e finire con un tag </urlset> di chiusura. Il tag ha la funzione di riassumere il file e si riferisce allo standard di protocollo corrente.

<url>, </url>

I tag <url> di apertura e chiusura sono sovraordinati alle singole voci dell'URL e indicano quindi l'inizio e la fine di una sottopagina elencata.

<loc>, </loc>

Il tag <loc> identifica le singole pagine del progetto web o i loro URL. L'URL deve sempre iniziare con il protocollo (ad es. "http") e terminare con una barra di chiusura (se richiesto dal server web). Viene inoltre definita una lunghezza massima di 2.048 caratteri.

Oltre a questi attributi XML obbligatori, <priority>, <lastmod> e <changefreq> rappresentano tre tag aggiuntivi per specificare le singole voci URL. Tuttavia la misura in cui questi tag opzionali sono supportati dipende anche dal rispettivo motore di ricerca. Ad esempio il crawler di Google utilizza principalmente i markup <lastmod> per l'indicizzazione, mentre ignora in gran parte gli altri due attributi o consente loro di confluire solo in minima parte nel processo di crawling.

sitemap.xml: tag opzionali

<lastmod>, </lastmod>

Tramite il tag <lastmod> è possibile specificare la data (in formato W3C) dell'ultima modifica di una pagina. Il tag è indipendente dall'header "if modified since" ("se modificato da") che il server web può restituire come parte di una risposta HTTP 304.

<changefreq>, </changefreq>

Il tag <changefreq> fornisce al crawler informazioni generali sulla frequenza con cui si prevede di aggiornare una pagina (oraria, giornaliera, mensile e così via). I documenti che cambiano ad ogni accesso sono contrassegnati con il valore "always" ("sempre"), gli URL archiviati con "never" ("mai").

<priority>, </priority>

Con questo tag la priorità di un URL all'interno dell'intero progetto web può essere espressa su una scala da 0.0 a 1.0 (priorità predefinita: 0.5). In questo modo i crawler possono essere informati delle pagine la cui indicizzazione è particolarmente importante.

Poiché un file Sitemap XML può contenere un massimo di 50.000 URL e non può superare i 50 MB, la raccolta di URL di siti web di grandi dimensioni può anche essere distribuita su più documenti. In questo caso, tuttavia, ogni documento della sitemap dovrebbe essere elencato in un file indice supplementare la cui struttura non differisca in linea di principio da quella dei file della sitemap: i tag <sitemapindex> e <sitemap> devono essere usati al posto di <urlset> e <url>.

N.B.

È possibile comprimere i file sitemap (ad esempio con gzip), ma solo per ridurre i requisiti di larghezza di banda. La dimensione massima di una sitemap XML non può essere aumentata in questo modo, poiché il limite si applica sempre alla versione estratta del file.

Esempio di sitemap XML

Il modo più semplice per comprendere la struttura di una sitemap XML è quello di usare un esempio concreto:

<!--?xml version="1.0" encoding="UTF-8"?-->
<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9"></urlset>
	<url></url>
		<loc>http://one-test.website/</loc>
		<lastmod>2018-01-01</lastmod>
		<changefreq>monthly</changefreq>
		<priority>1.0</priority>
	
	<url></url>
		<loc>http://one-test.website/page1/</loc>
		<lastmod>2018-03-05</lastmod>
		<changefreq>weekly</changefreq>
		<priority>0.5</priority>
	
	<url></url>
		<loc>http://one-test.website/page2/</loc>
		<lastmod>2018-03-08</lastmod>
		<changefreq>weekly</changefreq>
		<priority>0.3</priority>

In questo caso l’esempio di sitemap XML elenca l'URL principale di one-test.website e gli URL di due sottopagine (page1 e page2). I crawler dei motori di ricerca possono vedere dal documento che il webmaster ha dato la massima priorità alla pagina principale e che le modifiche vengono effettuate con cadenza più o meno mensile.

L'ultima modifica è stata effettuata il 1° gennaio 2018. La pagina page1 ha il valore di priorità di default (0.5), ma a differenza della pagina principale si stima che venga modificato settimanalmente, con l'ultima modifica effettuata il 5 marzo 2018. Se il crawler lavora con l'attributo di priorità sitemap, sa di dover prestare poca attenzione a page2 durante l'indicizzazione (valore <priority>: 0.3). Anche la parte inferiore è modificata settimanalmente (l'ultima modifica è dell'8.3.2018).

Come creare sitemap XML e consegnarle

Data l'enorme quantità di lavoro necessario per creare manualmente sitemap, ricorrere a plug-in o strumenti online è sempre la decisione giusta, a patto che vengano utilizzati correttamente. Naturalmente è possibile creare sitemap XML decenti anche senza configurazioni specifiche, ma solo con impostazioni individuali appropriate le directory delle strutture generate ottengono la forma desiderata. A titolo esemplificativo vi presentiamo le possibilità offerte dal generatore online di XML-Sitemaps.com e il plug-in WordPress Google XML Sitemaps per la creazione e l'integrazione di sitemap XML.

Come creare una sitemap XML con il generatore online di XML-Sitemaps.com

Dal 2005 il generatore online di XML-Sitemaps.com offre agli utenti una soluzione conveniente per creare le proprie sitemap XML. Il servizio web è gratuito per progetti web con un massimo di 500 sottopagine, mentre le sitemap di progetti più grandi possono essere create solo previo abbonamento a pagamento. La procedura è molto semplice: dopo aver aperto l'applicazione web inserite l'URL del proprio sito web nella barra degli indirizzi fornita a tale scopo.

Utilizzate il pulsante "More options" ("Altre opzioni") per specificare se e in quale misura le voci della sitemap debbano essere specificate tramite l'attributo <lastmod>, <priorità> o <changefreq>. Il primo può essere attivato o disattivato, mentre il secondo consente di impostare la frequenza di aggiornamento desiderata (oraria, giornaliera, settimanale, ecc.), nel caso in cui si desideri utilizzare questa opzione di etichettatura. Altrimenti è sufficiente mantenere l'impostazione predefinita "Do not specificy" ("Non specificare").

Cliccando su "START" si avvia il processo di generazione, la cui durata dipende dalle dimensioni del progetto web. Una volta completato il processo, è possibile visualizzare il risultato sotto "VIEW SITEMAP DETAILS" ("vedi dettagli della sitemap") -> "VIEW FULL XML SITEMAP" ("vedi sitemap XML completa").

Usate il pulsante di download per scaricare il file sitemap generato e caricarlo nella directory principale del vostro sito web. Per informare il crawler di Google dell’esistenza del vostro file, è sufficiente inviarlo alla Google Search Console, azione che richiede l’aggiunta del proprio sito web come proprietà su Google. In alternativa è possibile specificare il percorso in cui la mappa del sito può essere trovata in qualsiasi punto del file robots.txt:

Sitemap: http://one-test.website/sitemap.xml

Google XML Sitemaps: come creare una sitemap XML con il plug-in di WordPress

Da oltre un decennio il plug-in di WordPress Google XML Sitemap, sviluppato da Arne Brachhold, rende la generazione di sitemap XML dei propri progetti un gioco da ragazzi. Per utilizzare il popolare plug-in, che ha all’attivo oltre 2 milioni di installazioni attive in tutto il mondo, per il vostro sito web WordPress, installatelo per prima cosa tramite il “centro plug-in” del sistema del CMS.

Selezionate la voce di menu "Plugin", quindi "Installa" e immettete "Google XML Sitemaps" nella maschera di ricerca. Cliccando su "Installa ora" si avvia il processo di installazione dell'estensione, che dovrebbe apparire nella parte superiore dei risultati presentati:

In alternativa è possibile scaricare Google XML Sitemaps manualmente e inserirlo nella directory dei plug-in del vostro progetto WordPress. Se successivamente attivate l’estensione è possibile richiamarla direttamente all’interno di WordPress dalla voce "Sitemap XML" nel menu "Impostazioni". Rispetto a XML-Sitemaps.com, è disponibile un numero significativamente maggiore di opzioni di configurazione nelle seguenti sette sezioni:

  • Impostazioni generali: qui si definiscono le impostazioni di base e si stabilisce, ad esempio, se Google e Bing debbano essere informati automaticamente delle modifiche o se la sitemap debba essere compressa automaticamente.
  • Additional Pages: in questa sezione è possibile aggiungere file o URL che non fanno parte del progetto WordPress ma che vengono eseguiti sullo stesso dominio.
  • Priorità dei post: le regolazioni di questo menu sono di particolare interesse per i blog e i portali di notizie. Se si lavora con il tag <priority> nella mappa del sito, definite a questo punto se e come il plug-in debba calcolare la priorità di un post.
  • Contenuto della sitemap: utilizzate questo menu per selezionare le categorie di pagine da includere nella sitemap (ad esempio homepage, pagine statiche, pagine di archivio, ecc.).
  • Excluded Items: se volete escludere categorie o singoli post dall'indicizzazione, potete farlo qui.
  • Change Frequencies: Google XML Sitemaps fornisce la possibilità di preimpostare il tag <changefreq>. La frequenza di aggiornamento può anche essere impostata separatamente per i diversi tipi di pagina.
  • Priorità: qui sono riportate le stesse impostazioni per l'attributo <priorità>.

Una volta che avete progettato il setup della sitemap secondo le vostre esigenze, salvate le modifiche utilizzando il pulsante corrispondente. Facendo clic sul link "your sitemap" dopo aver salvato, trasmettete la sitemap XML ai crawler selezionati del motore di ricerca.


Abbiamo una proposta per te:
Web hosting a partire da 1 €/mese!

Dominio gratis
Certificato SSL Wildcard incluso
Assistenza clienti 24/7
A partire da 1 €/mese IVA escl. per un anno,
poi 8 €/ mese IVA escl.