I server web generano au­to­ma­ti­ca­men­te file di log che re­gi­stra­no ogni accesso. Questi dati con­ten­go­no preziose in­for­ma­zio­ni sui vi­si­ta­to­ri e sulle vi­si­ta­tri­ci, la loro pro­ve­nien­za e il com­por­ta­men­to degli utenti. Con un’analisi mirata dei file di log, puoi in­di­vi­dua­re le fonti di errore, iden­ti­fi­ca­re i bot e mi­glio­ra­re la tua strategia SEO.

Che cos’è un’analisi dei log?

L’analisi del file di log si riferisce alla va­lu­ta­zio­ne mirata dei file di log, cioè dei registri che un server web o un’ap­pli­ca­zio­ne generano au­to­ma­ti­ca­men­te. Questo metodo viene uti­liz­za­to in diversi settori, ad esempio per:

  • tracciare errori di tra­smis­sio­ne del database o delle e-mail;
  • con­trol­la­re le attività del firewall;
  • rilevare problemi di sicurezza o attacchi hacker;
  • com­pren­de­re il com­por­ta­men­to dei vi­si­ta­to­ri del sito web.

Proprio nel campo dell’analisi web e dell’ot­ti­miz­za­zio­ne per i motori di ricerca (SEO), l’analisi dei file di log è uno strumento prezioso. Chi analizza i file di log del server ottiene, tra l’altro, in­for­ma­zio­ni su:

  • Indirizzo IP e nome host
  • Orario di accesso
  • Browser uti­liz­za­to e sistema operativo
  • Link di pro­ve­nien­za (referrer) o motore di ricerca uti­liz­za­to, incluse le parole chiave
  • Tempo di per­ma­nen­za ap­pros­si­ma­ti­vo (derivato dalle marche temporali tra le richieste, ma non mi­su­ra­bi­le con pre­ci­sio­ne)
  • Numero di pagine vi­sua­liz­za­te e relativo ordine
  • Ultima pagina prima di lasciare il sito web

Con queste in­for­ma­zio­ni è possibile, ad esempio, scoprire problemi di scansione, iden­ti­fi­ca­re le fonti di errore o ana­liz­za­re l’utilizzo di di­spo­si­ti­vi mobili rispetto a quelli desktop. Poiché i file di log possono essere molto estesi, una va­lu­ta­zio­ne manuale è quasi im­pos­si­bi­le. In questo caso entrano in gioco strumenti spe­cia­liz­za­ti che vi­sua­liz­za­no ed elaborano i dati rilevanti. Il compito prin­ci­pa­le consiste poi nell’in­ter­pre­ta­re cor­ret­ta­men­te i risultati e trarre con­clu­sio­ni per SEO, sicurezza o per­for­man­ce.

Server virtuali (VPS)
Affidati ai VPS e server di IONOS, il tuo partner digitale cer­ti­fi­ca­to ISO
  • 1 Gbps di larghezza di banda e traffico il­li­mi­ta­to
  • Di­spo­ni­bi­li­tà del 99,99% e cer­ti­fi­ca­zio­ne ISO
  • As­si­sten­za 24/7 e con­su­len­te personale

Analisi dei log del server web: problemi tipici e soluzioni

Nell’analisi dei file di log si in­con­tra­no ra­pi­da­men­te limiti me­to­do­lo­gi­ci. Questo è dovuto prin­ci­pal­men­te al fatto che il pro­to­col­lo HTTP è senza stato e ogni richiesta viene con­si­de­ra­ta iso­la­ta­men­te. Tuttavia, ci sono diversi approcci per ottenere dati af­fi­da­bi­li.

Ri­co­strui­re le sessioni

Senza misure ag­giun­ti­ve, il server tratta ogni ca­ri­ca­men­to di pagina come una nuova richiesta. Per rendere visibile l’intero percorso di chi visita la pagina, possono essere uti­liz­za­ti gli ID di sessione, ge­ne­ral­men­te salvati tramite cookie o aggiunti come parametri all’URL. Mentre i cookie non sono visibili nei file di log, i parametri URL ri­chie­do­no un maggiore sforzo di pro­gram­ma­zio­ne e possono generare contenuti duplicati, un rischio per la SEO.

Iden­ti­fi­ca­re uni­vo­ca­men­te gli utenti

Un’altra opzione è l’as­se­gna­zio­ne degli accessi tramite l’indirizzo IP. Tuttavia, questo funziona solo in parte, poiché molti utenti ricevono indirizzi dinamici o più persone con­di­vi­do­no un IP (ad esempio tramite proxy server). Inoltre, gli indirizzi IP completi sono con­si­de­ra­ti dati personali secondo il GDPR. Pertanto, do­vreb­be­ro essere resi anonimi o me­mo­riz­za­ti solo tem­po­ra­nea­men­te.

Ri­co­no­sce­re bot e crawler

I log del server con­ten­go­no non solo dati di vi­si­ta­to­ri reali, ma anche accessi da crawler dei motori di ricerca o bot. Questi possono essere iden­ti­fi­ca­ti tramite l’in­te­sta­zio­ne User-Agent, note aree di indirizzi IP o tramite schemi di accesso anomali. Un’analisi af­fi­da­bi­le richiede quindi di ri­co­no­sce­re i bot e separarli dagli accessi reali.

Li­mi­ta­zio­ni dovute al caching e alle risorse

Il caching at­tra­ver­so browser o proxy server assicura che non tutte le richieste degli utenti rag­giun­ga­no il server web. Alcuni accessi, quindi, appaiono solo come codice di stato 304 (“Not Modified”) nel log. Inoltre, i log di progetti molto visitati possono diventare ra­pi­da­men­te molto grandi, ri­chie­den­do spazio di ar­chi­via­zio­ne e potenza di calcolo. Le soluzioni come la log rotation, l’ag­gre­ga­zio­ne dei dati o soluzioni scalabili come l’Elastic Stack (ELK) possono essere d’aiuto.

Dati sta­ti­sti­ci mancanti

I file di log for­ni­sco­no preziose in­for­ma­zio­ni tecniche, ma non rilevano tutte le metriche rilevanti per l’analisi web. Dati come il tasso di rimbalzo o la durata esatta del tempo di per­ma­nen­za mancano o possono essere stimati solo in­di­ret­ta­men­te. Pertanto, l’analisi dei file di log è più adatta come com­ple­men­to ad altre me­to­do­lo­gie ana­li­ti­che.

ran­kin­g­Coach
Vendi di più con il marketing online e l'IA
  • Migliore po­si­zio­na­men­to su Google senza agenzie esterne
  • Risposte veloci a commenti o re­cen­sio­ni sui social media
  • Nessuna co­no­scen­za SEO o di marketing online richiesta

Ana­liz­za­re i file di log: come funziona

Per com­pren­de­re il fun­zio­na­men­to di un’analisi dei file di log, vale la pena dare un’occhiata alla struttura di un tipico file di log. Un esempio è il log del server web Apache (access.log), che viene creato au­to­ma­ti­ca­men­te nella directory di Apache.

Quali in­for­ma­zio­ni fornisce il log di Apache?

Le voci create sono me­mo­riz­za­te nel co­sid­det­to Common Log Format (noto anche come NCSA Common log format): ogni voce segue una sintassi pre­de­ter­mi­na­ta.

%h %l %u %t "%r" %>s %b

Le singole com­po­nen­ti rap­pre­sen­ta­no le seguenti in­for­ma­zio­ni:

  • %h: indirizzo IP del client
  • %l: identità del client, che per im­po­sta­zio­ne pre­de­fi­ni­ta non viene de­ter­mi­na­ta; nella pratica, quindi, spesso appare un trattino (–) che indica un dato mancante.
  • %u: ID utente del client, che viene assegnato ad esempio con la pro­te­zio­ne delle directory tramite au­ten­ti­ca­zio­ne HTTP; nor­mal­men­te non viene assegnato.
  • %t: marca temporale dell’orario di accesso
  • %r: in­for­ma­zio­ni sulla richiesta HTTP (metodo, risorsa richiesta e versione del pro­to­col­lo)
  • %>s: codice di stato della risposta del server
  • %b: quantità di dati trasmessi in byte

Un record completo nel file access.log potrebbe apparire così:

203.0.113.195 - user [10/Sep/2025:10:43:00 +0200] "GET /index.html HTTP/2.0" 200 2326

Questo record mostra che un client con l’indirizzo IP 203.0.113.195 ha re­cu­pe­ra­to il file index.html il 10 settembre 2025 alle 10:43 tramite HTTP/2.0. Il server ha risposto con il codice di stato 200 (“OK”) e ha trasmesso 2326 byte.

Nel formato esteso Combined Log Format si possono re­gi­stra­re anche il referrer (%{Referer}i) e lo user-agent (%{User-agent}i). In questo modo si ottengono in­for­ma­zio­ni sulla pagina di pro­ve­nien­za e sul browser o crawler uti­liz­za­to. Oltre al file access.log, Apache genera altri file di log come error.log, dove sono do­cu­men­ta­ti errori, problemi del server o richieste fallite. Anche i log SSL o i log di proxy possono essere uti­liz­za­ti per l’analisi.

Prime analisi con fogli di calcolo

Per piccole quantità di dati, puoi con­ver­ti­re i file di log in formato CSV e im­por­tar­li in programmi come *Microsoft Excel o Li­breOf­fi­ce Calc. Qui i dati possono essere filtrati secondo criteri come l’indirizzo IP, il codice di stato o il referrer. Tuttavia, poiché i log possono diventare molto grandi ra­pi­da­men­te, i fogli di calcolo sono adatti solo per analisi istan­ta­nee a breve termine.

Gli strumenti spe­cia­liz­za­ti nell’analisi dei log

Per progetti più grandi o una va­lu­ta­zio­ne continua, sono più adatti strumenti spe­cia­liz­za­ti. A tal fine, risultano indicati i seguenti:

  • GoAccess: uno strumento open source per dashboard in tempo reale di­ret­ta­men­te nel browser.
  • Matomo Log Analytics (Importer): importa i file di log in Matomo, con­sen­ten­do l’analisi dei dati senza il tag delle pagine.
  • AWStats: fornisce rapporti e sta­ti­sti­che chiari, par­ti­co­lar­men­te ef­fi­cien­te nel consumo di risorse.
  • Elastic Stack (ELK: Ela­stic­search, Logstash, Kibana): consente l’ar­chi­via­zio­ne, la ricerca e la vi­sua­liz­za­zio­ne scalabili di grandi quantità di dati di log.
  • Grafana Loki + Promtail: adatto per la raccolta e l’analisi cen­tra­liz­za­ta dei log tramite dashboard di Grafana.

Per i progetti molto grandi, è inoltre utile uti­liz­za­re la log rotation: in questo modo, i vecchi file di log vengono ar­chi­via­ti o eliminati au­to­ma­ti­ca­men­te, liberando spazio di ar­chi­via­zio­ne e man­te­nen­do stabili le pre­sta­zio­ni. In com­bi­na­zio­ne con strumenti come l’ELK-Stack o Grafana, è possibile elaborare milioni di voci in modo ef­fi­cien­te.

Analisi dei log e la questione privacy

L’analisi dei file di log del server riguarda sempre la pro­te­zio­ne dei dati, poiché vengono re­go­lar­men­te trattati dati personali. Due aspetti sono par­ti­co­lar­men­te im­por­tan­ti:

1. Ar­chi­via­zio­ne e posizione geo­gra­fi­ca del server

Un vantaggio dell’analisi dei file di log è che i dati possono essere elaborati com­ple­ta­men­te sulla propria in­fra­strut­tu­ra. In questo modo, mantieni il controllo e non devi tra­sfe­ri­re in­for­ma­zio­ni sensibili a terze parti.

Se il tuo server web è gestito da un hosting esterno, dovresti as­si­cu­rar­ti che i data center siano situati all’interno dell’UE, ideal­men­te in Germania, e che sia stipulato un contratto per l’ela­bo­ra­zio­ne dei dati (AVV) conforme al GDPR. Solo così si può garantire un alto livello di pro­te­zio­ne per la ri­ser­va­tez­za e l’integrità.

2. Gestione degli indirizzi IP

Gli indirizzi IP sono con­si­de­ra­ti dati personali secondo il GDPR. La loro ela­bo­ra­zio­ne deve quindi basarsi su una base giuridica, so­li­ta­men­te nell’ambito del “legittimo interesse” (Art. 6 par. 1 lett. f GDPR), ad esempio per garantire la sicurezza in­for­ma­ti­ca o per la ricerca di errori.

Le migliori pratiche sono:

  • Ano­ni­miz­za­re o ac­cor­cia­re gli indirizzi IP il prima possibile.
  • Limitare i tempi di con­ser­va­zio­ne (spesso pochi giorni, ad esempio 7 giorni).
  • Im­ple­men­ta­re chiari concetti di eli­mi­na­zio­ne.
  • Informare in modo tra­spa­ren­te gli utenti nell’in­for­ma­ti­va sulla privacy.

L’analisi dei file di log è quindi possibile in con­for­mi­tà con la pro­te­zio­ne dei dati, se raccogli i dati in modo moderato, li ano­ni­miz­zi tem­pe­sti­va­men­te e informi gli utenti in modo tra­spa­ren­te. In questo modo, puoi sfruttare i vantaggi dell’analisi senza incorrere in rischi legali.

Analizza i file di log del server: una base solida per la tua analisi web

L’analisi dei file di log è un metodo af­fi­da­bi­le per misurare il successo di un progetto web. Os­ser­van­do re­go­lar­men­te il traffico e il com­por­ta­men­to degli utenti, è possibile adattare l’offerta alle esigenze del proprio target. Un vantaggio rispetto agli strumenti di trac­cia­men­to basati su Ja­va­Script, come Matomo o Google Analytics, è che i file di log rac­col­go­no dati anche quando gli script sono bloccati. Tuttavia, mancano metriche come il tasso di rimbalzo o la durata esatta della visita, e fattori come la cache o gli indirizzi IP dinamici limitano l’ac­cu­ra­tez­za.

No­no­stan­te queste li­mi­ta­zio­ni, i file di log del server offrono una base solida e conforme alla pro­te­zio­ne dei dati per l’analisi dei log. Sono par­ti­co­lar­men­te utili per di­stin­gue­re tra accessi da desktop e mobile, ri­co­no­sce­re bot e crawler, o iden­ti­fi­ca­re fonti di errore come le pagine 404. In com­bi­na­zio­ne con altri metodi di analisi, ne risulta così un quadro completo sull’utilizzo del tuo sito web.

Vai al menu prin­ci­pa­le