Analisi dei log: le informazioni che si ricavano su chi visita il sito dai log del server web
I server web generano automaticamente file di log che registrano ogni accesso. Questi dati contengono preziose informazioni sui visitatori e sulle visitatrici, la loro provenienza e il comportamento degli utenti. Con un’analisi mirata dei file di log, puoi individuare le fonti di errore, identificare i bot e migliorare la tua strategia SEO.
Che cos’è un’analisi dei log?
L’analisi del file di log si riferisce alla valutazione mirata dei file di log, cioè dei registri che un server web o un’applicazione generano automaticamente. Questo metodo viene utilizzato in diversi settori, ad esempio per:
- tracciare errori di trasmissione del database o delle e-mail;
- controllare le attività del firewall;
- rilevare problemi di sicurezza o attacchi hacker;
- comprendere il comportamento dei visitatori del sito web.
Proprio nel campo dell’analisi web e dell’ottimizzazione per i motori di ricerca (SEO), l’analisi dei file di log è uno strumento prezioso. Chi analizza i file di log del server ottiene, tra l’altro, informazioni su:
- Indirizzo IP e nome host
- Orario di accesso
- Browser utilizzato e sistema operativo
- Link di provenienza (referrer) o motore di ricerca utilizzato, incluse le parole chiave
- Tempo di permanenza approssimativo (derivato dalle marche temporali tra le richieste, ma non misurabile con precisione)
- Numero di pagine visualizzate e relativo ordine
- Ultima pagina prima di lasciare il sito web
Con queste informazioni è possibile, ad esempio, scoprire problemi di scansione, identificare le fonti di errore o analizzare l’utilizzo di dispositivi mobili rispetto a quelli desktop. Poiché i file di log possono essere molto estesi, una valutazione manuale è quasi impossibile. In questo caso entrano in gioco strumenti specializzati che visualizzano ed elaborano i dati rilevanti. Il compito principale consiste poi nell’interpretare correttamente i risultati e trarre conclusioni per SEO, sicurezza o performance.
- 1 Gbps di larghezza di banda e traffico illimitato
- Disponibilità del 99,99% e certificazione ISO
- Assistenza 24/7 e consulente personale
Analisi dei log del server web: problemi tipici e soluzioni
Nell’analisi dei file di log si incontrano rapidamente limiti metodologici. Questo è dovuto principalmente al fatto che il protocollo HTTP è senza stato e ogni richiesta viene considerata isolatamente. Tuttavia, ci sono diversi approcci per ottenere dati affidabili.
Ricostruire le sessioni
Senza misure aggiuntive, il server tratta ogni caricamento di pagina come una nuova richiesta. Per rendere visibile l’intero percorso di chi visita la pagina, possono essere utilizzati gli ID di sessione, generalmente salvati tramite cookie o aggiunti come parametri all’URL. Mentre i cookie non sono visibili nei file di log, i parametri URL richiedono un maggiore sforzo di programmazione e possono generare contenuti duplicati, un rischio per la SEO.
Identificare univocamente gli utenti
Un’altra opzione è l’assegnazione degli accessi tramite l’indirizzo IP. Tuttavia, questo funziona solo in parte, poiché molti utenti ricevono indirizzi dinamici o più persone condividono un IP (ad esempio tramite proxy server). Inoltre, gli indirizzi IP completi sono considerati dati personali secondo il GDPR. Pertanto, dovrebbero essere resi anonimi o memorizzati solo temporaneamente.
Riconoscere bot e crawler
I log del server contengono non solo dati di visitatori reali, ma anche accessi da crawler dei motori di ricerca o bot. Questi possono essere identificati tramite l’intestazione User-Agent, note aree di indirizzi IP o tramite schemi di accesso anomali. Un’analisi affidabile richiede quindi di riconoscere i bot e separarli dagli accessi reali.
Limitazioni dovute al caching e alle risorse
Il caching attraverso browser o proxy server assicura che non tutte le richieste degli utenti raggiungano il server web. Alcuni accessi, quindi, appaiono solo come codice di stato 304 (“Not Modified”) nel log. Inoltre, i log di progetti molto visitati possono diventare rapidamente molto grandi, richiedendo spazio di archiviazione e potenza di calcolo. Le soluzioni come la log rotation, l’aggregazione dei dati o soluzioni scalabili come l’Elastic Stack (ELK) possono essere d’aiuto.
Dati statistici mancanti
I file di log forniscono preziose informazioni tecniche, ma non rilevano tutte le metriche rilevanti per l’analisi web. Dati come il tasso di rimbalzo o la durata esatta del tempo di permanenza mancano o possono essere stimati solo indirettamente. Pertanto, l’analisi dei file di log è più adatta come complemento ad altre metodologie analitiche.
- Migliore posizionamento su Google senza agenzie esterne
- Risposte veloci a commenti o recensioni sui social media
- Nessuna conoscenza SEO o di marketing online richiesta
Analizzare i file di log: come funziona
Per comprendere il funzionamento di un’analisi dei file di log, vale la pena dare un’occhiata alla struttura di un tipico file di log. Un esempio è il log del server web Apache (access.log), che viene creato automaticamente nella directory di Apache.
Quali informazioni fornisce il log di Apache?
Le voci create sono memorizzate nel cosiddetto Common Log Format (noto anche come NCSA Common log format): ogni voce segue una sintassi predeterminata.
%h %l %u %t "%r" %>s %bLe singole componenti rappresentano le seguenti informazioni:
%h: indirizzo IP del client%l: identità del client, che per impostazione predefinita non viene determinata; nella pratica, quindi, spesso appare un trattino (–) che indica un dato mancante.%u: ID utente del client, che viene assegnato ad esempio con la protezione delle directory tramite autenticazione HTTP; normalmente non viene assegnato.%t: marca temporale dell’orario di accesso%r: informazioni sulla richiesta HTTP (metodo, risorsa richiesta e versione del protocollo)%>s: codice di stato della risposta del server%b: quantità di dati trasmessi in byte
Un record completo nel file access.log potrebbe apparire così:
203.0.113.195 - user [10/Sep/2025:10:43:00 +0200] "GET /index.html HTTP/2.0" 200 2326Questo record mostra che un client con l’indirizzo IP 203.0.113.195 ha recuperato il file index.html il 10 settembre 2025 alle 10:43 tramite HTTP/2.0. Il server ha risposto con il codice di stato 200 (“OK”) e ha trasmesso 2326 byte.
Nel formato esteso Combined Log Format si possono registrare anche il referrer (%{Referer}i) e lo user-agent (%{User-agent}i). In questo modo si ottengono informazioni sulla pagina di provenienza e sul browser o crawler utilizzato. Oltre al file access.log, Apache genera altri file di log come error.log, dove sono documentati errori, problemi del server o richieste fallite. Anche i log SSL o i log di proxy possono essere utilizzati per l’analisi.
Prime analisi con fogli di calcolo
Per piccole quantità di dati, puoi convertire i file di log in formato CSV e importarli in programmi come *Microsoft Excel o LibreOffice Calc. Qui i dati possono essere filtrati secondo criteri come l’indirizzo IP, il codice di stato o il referrer. Tuttavia, poiché i log possono diventare molto grandi rapidamente, i fogli di calcolo sono adatti solo per analisi istantanee a breve termine.
Gli strumenti specializzati nell’analisi dei log
Per progetti più grandi o una valutazione continua, sono più adatti strumenti specializzati. A tal fine, risultano indicati i seguenti:
- GoAccess: uno strumento open source per dashboard in tempo reale direttamente nel browser.
- Matomo Log Analytics (Importer): importa i file di log in Matomo, consentendo l’analisi dei dati senza il tag delle pagine.
- AWStats: fornisce rapporti e statistiche chiari, particolarmente efficiente nel consumo di risorse.
- Elastic Stack (ELK: Elasticsearch, Logstash, Kibana): consente l’archiviazione, la ricerca e la visualizzazione scalabili di grandi quantità di dati di log.
- Grafana Loki + Promtail: adatto per la raccolta e l’analisi centralizzata dei log tramite dashboard di Grafana.
Per i progetti molto grandi, è inoltre utile utilizzare la log rotation: in questo modo, i vecchi file di log vengono archiviati o eliminati automaticamente, liberando spazio di archiviazione e mantenendo stabili le prestazioni. In combinazione con strumenti come l’ELK-Stack o Grafana, è possibile elaborare milioni di voci in modo efficiente.
Analisi dei log e la questione privacy
L’analisi dei file di log del server riguarda sempre la protezione dei dati, poiché vengono regolarmente trattati dati personali. Due aspetti sono particolarmente importanti:
1. Archiviazione e posizione geografica del server
Un vantaggio dell’analisi dei file di log è che i dati possono essere elaborati completamente sulla propria infrastruttura. In questo modo, mantieni il controllo e non devi trasferire informazioni sensibili a terze parti.
Se il tuo server web è gestito da un hosting esterno, dovresti assicurarti che i data center siano situati all’interno dell’UE, idealmente in Germania, e che sia stipulato un contratto per l’elaborazione dei dati (AVV) conforme al GDPR. Solo così si può garantire un alto livello di protezione per la riservatezza e l’integrità.
2. Gestione degli indirizzi IP
Gli indirizzi IP sono considerati dati personali secondo il GDPR. La loro elaborazione deve quindi basarsi su una base giuridica, solitamente nell’ambito del “legittimo interesse” (Art. 6 par. 1 lett. f GDPR), ad esempio per garantire la sicurezza informatica o per la ricerca di errori.
Le migliori pratiche sono:
- Anonimizzare o accorciare gli indirizzi IP il prima possibile.
- Limitare i tempi di conservazione (spesso pochi giorni, ad esempio 7 giorni).
- Implementare chiari concetti di eliminazione.
- Informare in modo trasparente gli utenti nell’informativa sulla privacy.
L’analisi dei file di log è quindi possibile in conformità con la protezione dei dati, se raccogli i dati in modo moderato, li anonimizzi tempestivamente e informi gli utenti in modo trasparente. In questo modo, puoi sfruttare i vantaggi dell’analisi senza incorrere in rischi legali.
Analizza i file di log del server: una base solida per la tua analisi web
L’analisi dei file di log è un metodo affidabile per misurare il successo di un progetto web. Osservando regolarmente il traffico e il comportamento degli utenti, è possibile adattare l’offerta alle esigenze del proprio target. Un vantaggio rispetto agli strumenti di tracciamento basati su JavaScript, come Matomo o Google Analytics, è che i file di log raccolgono dati anche quando gli script sono bloccati. Tuttavia, mancano metriche come il tasso di rimbalzo o la durata esatta della visita, e fattori come la cache o gli indirizzi IP dinamici limitano l’accuratezza.
Nonostante queste limitazioni, i file di log del server offrono una base solida e conforme alla protezione dei dati per l’analisi dei log. Sono particolarmente utili per distinguere tra accessi da desktop e mobile, riconoscere bot e crawler, o identificare fonti di errore come le pagine 404. In combinazione con altri metodi di analisi, ne risulta così un quadro completo sull’utilizzo del tuo sito web.

