Il traffico dati in entrata, il co­sid­det­to Traffic, è uno dei prin­ci­pa­li in­di­ca­to­ri di successo di un sito web. I gestori uti­liz­za­no metriche quali Hits, Visits e Page Im­pres­sions, per misurare i flussi di vi­si­ta­to­ri e valutare le pre­sta­zio­ni dei propri progetti web. Tutto questo viene fatto nel contesto dell’analisi dei file di log. I gestori di siti web uti­liz­za­no inoltre soluzioni software web based come Google Analytics, Piwik o etracker per rac­co­glie­re i dati relativi al traffico e valutarli. Eventuali ir­re­go­la­ri­tà possono essere dovute al referrer spam (detto anche referral spam). Vi mostriamo come ri­co­no­sce­re questo tipo di attacchi spam e come prevenire di con­se­guen­za la fal­si­fi­ca­zio­ne delle sta­ti­sti­che.

Che cos’è il referrer spam?

Con referrer spam si intende una forma di spam dei motori di ricerca in cui gli hacker tentano di ma­ni­po­la­re i file di log e le sta­ti­sti­che di analisi di de­ter­mi­na­ti siti web. L’obiettivo è quello di generare il co­sid­det­to fake traffic, così da simulare un flusso di vi­si­ta­to­ri o per generare nuovi accessi al proprio sito web.  Entrambi i modelli di attacco si basano su programmi per computer in gran parte in­di­pen­den­ti: i co­sid­det­ti bot (ab­bre­via­zio­ne di “robot”).

Cosa sono gli spam bot?

I programmi che eseguono au­to­ma­ti­ca­men­te compiti ri­pe­ti­ti­vi sono una com­po­nen­te centrale del World Wide Web, così come lo co­no­scia­mo oggi. I motori di ricerca come Google o Bing uti­liz­za­no programmi di questo tipo per esaminare il web e in­di­ciz­za­re le pagine rilevanti. Si parla in questo caso di web crawler o searchbot.

Anche gli hacker si servono di bot per au­to­ma­tiz­za­re le ope­ra­zio­ni sul web. A dif­fe­ren­za dei crawler dei motori di ricerca, l’at­ten­zio­ne qui non è fo­ca­liz­za­ta sugli interessi degli utenti. Questi programmi sono uti­liz­za­ti durante gli attacchi spam con i seguenti scopi:

  • au­to­ma­tiz­za­re i click sugli annunci pub­bli­ci­ta­ri - Click Fraud;
  • rac­co­glie­re indirizzi e-mail – E-Mail-Har­ve­sting;
  • creare account generati au­to­ma­ti­ca­men­te;
  • di­stri­bui­re pub­bli­ci­tà sotto forma di commenti generati au­to­ma­ti­ca­men­te;
  • dif­fon­de­re malware

Anche il referrer spam è so­li­ta­men­te basato su bot. Si di­stin­guo­no due tipi di spam bot:

  • Programmi che simulano le visite ai siti web: gli spam bot di questo tipo imitano i comuni browser come Chrome, Firefox o Safari e inviano in massa richieste HTTP ai server web se­le­zio­na­ti. Questi programmi sono simili ai crawler dei motori di ricerca, che a volte si camuffano da browser. I programmi in questo tipo di spam simulano la visita di un sito web da parte di un utente umano e per questo prendono il nome di crawling spam. Gli effetti del crawling spam sono visibili nel file di log del server. Per questo si parla anche di spam dei file di log.
  • Programmi che fal­si­fi­ca­no i dati sul traffico: i bot spam di questo tipo imitano i dati sul traffico di altri siti web e li immettono di nascosto nei server degli strumenti di analisi web più uti­liz­za­ti. Un tale modello di attacco permette di ma­ni­po­la­re le sta­ti­sti­che web senza in­te­ra­gi­re con il sito di de­sti­na­zio­ne e non appare nel file di log del server, ma esclu­si­va­men­te nei report del software di analisi ma­ni­po­la­to. In questo caso si parla di ghost spam.

Esa­mi­nia­mo ora nel dettaglio entrambi i modelli di attacco e le relative con­tro­mi­su­re.

Crawler-Spam

La maggior parte dei server web mantiene un file di registro centrale (il registro degli accessi) in cui tutti gli accessi sono re­gi­stra­ti in ordine cro­no­lo­gi­co con una marca temporale. L’esempio seguente mostra la voce di registro di accesso di un server Apache in formato di registro combinato:

127.0.0.1 - frank [10/Oct/2000:13:55:36 -0700] "GET /apache_pb.gif HTTP/1.0" 200 2326 "http://www.example.com/start.html" "Mozilla/4.08 [en] (Win98; I ;Nav)"

La voce contiene le seguenti in­for­ma­zio­ni:

In­for­ma­zio­ne Esempio
Indirizzo IP dell'host ri­chie­den­te 127.0.0.1
Nome utente al­l'au­ten­ti­ca­zio­ne HTTP frank
Marca temporale [10/Oct/2000:13:55:36 -0700]
Richiesta HTTP GET /apache_pb.gif HTTP/1.0
Codice di stato HTTP 200
Di­men­sio­ni file 2326
Referer [sic] "http://www.example.com/start.html"
User Agent Mozilla/4.08 [en] (Win98; I ;Nav)

Gli hacker uti­liz­za­no la re­gi­stra­zio­ne au­to­ma­ti­ca tramite file di log al fine di inserire il proprio URL nei log dei server dei siti web se­le­zio­na­ti, ser­ven­do­si di richieste HTTP di massa. In primo piano c'è il campo referer [sic] della richiesta http, che contiene l'URL del sito web di ri­fe­ri­men­to.

N.B.

A causa di un errore di or­to­gra­fia nella spe­ci­fi­ca­zio­ne HTTP, si è affermato l’uso del termine “referer”. In altri standard viene invece uti­liz­za­ta la dicitura corretta con la doppia r.

Quando un utente clicca su un col­le­ga­men­to iper­te­stua­le, viene portato dal sito web corrente alla pagina di de­sti­na­zio­ne. In questo caso il referrer contiene l’URL del sito web su cui si trova il link. At­tra­ver­so un’analisi dei file di log, il gestore della pagina di de­sti­na­zio­ne apprende quali pagine su Internet rimandano al suo progetto web e può iden­ti­fi­ca­re così po­ten­zia­li fonti di traffico.

In passato era prassi comune tra i blogger pub­bli­ca­re le in­for­ma­zio­ni di ri­fe­ri­men­to dal file di log in un widget sul proprio sito web e quindi mostrare l’origine dei flussi di vi­si­ta­to­ri. L’in­se­ri­men­to in questi elenchi avveniva di solito sotto forma di link alla sorgente del traffico. Gli hacker ne ap­pro­fit­ta­va­no per ma­ni­po­la­re i file di log dei blog e di altri siti web allo scopo di po­si­zio­na­re i propri progetti web il più in alto possibile negli elenchi di link pubblici e generare così backlink e vi­sua­liz­za­zio­ni della pagina.

Ancora oggi, speciali spam bot vengono uti­liz­za­ti per in­ter­ro­ga­re in massa le pagine di de­sti­na­zio­ne e tra­smet­te­re l’URL del sito web di cui si vuole aumentare la vi­si­bi­li­tà come referrer. Tuttavia gli attacchi di spam di questo tipo sono diminuiti dra­sti­ca­men­te, poiché oggi è difficile trovare sui siti web liste di referrer generate au­to­ma­ti­ca­men­te. Ciò è in parte dovuto a cam­bia­men­ti si­gni­fi­ca­ti­vi nell’algoritmo di ranking del leader dei motori di ricerca, Google.

Dopo l’ag­gior­na­men­to Penguin, ovvero circa dall’aprile 2012, Google ha preso delle misure per con­tra­sta­re lo spam web in relazione ai backlink. I progetti web che si di­stin­guo­no per un’eccessiva ot­ti­miz­za­zio­ne devono essere pe­na­liz­za­ti. È il caso, ad esempio, di siti web con un numero no­te­vol­men­te elevato di backlink pro­ve­nien­ti da pagine ir­ri­le­van­ti, elenchi e reti di link, directory di articoli o commenti a blog.

Oggi le analisi dei file di log sono raramente eseguite ma­nual­men­te. Vengono invece uti­liz­za­ti strumenti come Webalizer, AWStats o Piwik. Inoltre, gli strumenti di analisi come Google Analytics offrono la pos­si­bi­li­tà di valutare i dati sul traffico senza uti­liz­za­re i file di log del server. Rimangono però sempre vul­ne­ra­bi­li ad attacchi di crawler spam e ghost spam.

Iden­ti­fi­ca­re il crawler spam

Nel seguente esempio vi mostriamo come ri­co­no­sce­re il crawler spam nelle sta­ti­sti­che del vostro sito web e come filtrare i referrer più evidenti con Google Analytics.

1. Aprire un account su Google Analytics: aprite l’account Google Analytics del vostro progetto web.

N.B.

Tutti gli screen­shot di Google Analytics pro­ven­go­no dal Google Mer­chan­di­se Store, fornito dal provider come account di­mo­stra­ti­vo. Il link all’account è di­spo­ni­bi­le nelle pagine della guida di Analytics. L’accesso richiede un account Google gratuito.

2. Ri­chia­ma­re le sta­ti­sti­che dei referrer: se­le­zio­na­te “Ac­qui­si­zio­ne” e cliccate su “Referral” sotto la voce “Tutto il traffico”.

3.  Impostare il periodo in esame: se­le­zio­na­te come periodo di os­ser­va­zio­ne gli ultimi tre mesi.

4.  Ordinare/filtrare le sta­ti­sti­che del referrer: alla voce “Ac­qui­si­zio­ne” > “Tutto il traffico” > “Referral” Google Analytics presenta come prima voce del report di riepilogo tutte le sorgenti dei link dei col­le­ga­men­ti iper­te­stua­li in entrata al vostro sito web. Verrà vi­sua­liz­za­to un elenco di tutti gli URL di referral re­gi­stra­ti da Google Analytics nel periodo di vi­sua­liz­za­zio­ne se­le­zio­na­to, nonché i ri­spet­ti­vi valori di mi­su­ra­zio­ne che possono essere assegnati a tali URL.

Google Analytics vi­sua­liz­za per ogni referrer il numero di utenti e sessioni. Inoltre, dalle sta­ti­sti­che è possibile leggere la frequenza di rimbalzo media (bounce rate), il numero di pagine vi­sua­liz­za­te per sessione, la durata media della sessione, i tassi di con­ver­sio­ne, le tran­sa­zio­ni e le entrate generate.

Per la pre­ven­zio­ne dello spam, hanno par­ti­co­la­re im­por­tan­za il numero di pagine viste (sessioni) per fonte di ri­fe­ri­men­to e la frequenza di rimbalzo media.

In "Com­por­ta­men­to", fate clic sul campo "Frequenza di rimbalzo" per ordinare la vi­sua­liz­za­zio­ne in base alle cifre chiave di questa colonna in ordine de­cre­scen­te.

La frequenza di rimbalzo è una per­cen­tua­le che mostra le im­pres­sio­ni di pagina pro­ve­nien­ti dalla medesima sorgente, senza in­te­ra­zio­ni con il vostro sito web. Una frequenza di rimbalzo del 100% o dello 0% per più di 10 sessioni che uti­liz­za­no le stessa sorgente di ri­fe­ri­men­to è un chiaro indizio della presenza di query au­to­ma­ti­che.

In al­ter­na­ti­va è possibile uti­liz­za­re un’espres­sio­ne regolare (Regular Ex­pres­sion o RegEx) per filtrare la vi­sua­liz­za­zio­ne per spam referrer già noti. Si tratta, ad esempio, di siti web come questo:

  • semalt.com
  • darodar.com
  • hul­fing­ton­po­st.com
  • buttons-for-website.com
  • best-seo-solution.com
  • free-share-buttons.com
Consiglio

L’agenzia digitale olandese Sti­jl­breuk mette a di­spo­si­zio­ne una vasta blacklist di referrer spam co­stan­te­men­te ag­gior­na­ta sul sito re­fer­rer­spam­bloc­ker.com.

Un modello di filtro cor­ri­spon­den­te potrebbe as­so­mi­glia­re, ad esempio, a questo:

semalt|darodar|hul­fing­ton­po­st|buttons-for-website|best-seo-solution

La barra verticale (|) cor­ri­spon­de all’operatore logico oppure. I me­ta­ca­rat­te­ri come i punti (.) devono essere ma­sche­ra­ti con una barra ro­ve­scia­ta (\).

Per applicare il filtro bisogna cliccare su “Avanzata”.

Viene vi­sua­liz­za­ta una maschera filtro.

Create un filtro inclusivo per il parametro “Sorgente” e scegliete l’opzione filtro “Con espr. reg”. Inserite un’espres­sio­ne regolare come modello di filtro. Con­fer­ma­te il processo di fil­trag­gio facendo clic su “Applica”.

5. Annotare i referrer sospetti: create una blacklist di referrer spam che includa tutti gli URL di origine sospetta. Questo elenco servirà suc­ces­si­va­men­te come base per un filtro di esclu­sio­ne.

Bloccare il crawler spam tramite .htaccess

Il crawler spam richiede un accesso al vostro sito web. È quindi possibile avviare con­tro­mi­su­re af­fi­da­bi­li già lato server. Vi mo­stre­re­mo come farlo uti­liz­zan­do il file di con­fi­gu­ra­zio­ne .htaccess di Apache, il server web più uti­liz­za­to al mondo.

Se notate degli URL sospetti nelle vostre sta­ti­sti­che dei referrer, è possibile uti­liz­za­re le seguenti procedure per impedire agli spam bot di accedere alle pagine web:

  • Bloccare i referrer
  • Bloccare gli indirizzi IP
  • Bloccare gli User Agent

Bloccare il referrer via .htaccess

Per bloccare URL di ri­fe­ri­men­to se­le­zio­na­ti, aprite il file .htaccess del server web e ag­giun­ge­te una porzione di codice uti­liz­zan­do l’esempio seguente:

RewriteEngine on
    RewriteCond %{HTTP_REFERER} ^https?://([^.]+\.)*semalt\.com\ [NC,OR]
    RewriteCond %{HTTP_REFERER} ^https?://([^.]+\.)*darodar\.com\ [NC,OR]
    RewriteCond %{HTTP_REFERER} ^https?://([^.]+\.)*hulfingtonpost\.com\ [NC,OR]
    RewriteCond %{HTTP_REFERER} ^https?://([^.]+\.)*buttons\-for\-website\.com\ [NC,OR]
    RewriteCond %{HTTP_REFERER} ^https?://([^.]+\.)*best\-seo\-solution\.com\ [NC,OR]
    RewriteCond %{HTTP_REFERER} ^https?://([^.]+\.)*free\-share\-buttons\.com\ [NC]
RewriteRule .* - [F]

La difesa antispam lato server si basa su Rew­ri­te­Ru­le:

.* - [F]

Questo indica al server web di ri­spon­de­re a tutte le richieste HTTP in arrivo con il codice di stato 403 Forbidden (“proibito”), se una o più con­di­zio­ni (Rew­ri­te­Cond) sono sod­di­sfat­te. L’accesso per i bot spam non è più possibile.

Nel­l'e­sem­pio attuale, ogni referrer da bloccare è stato definito in un Rew­ri­te­Cond separato come espres­sio­ne regolare, secondo l'esempio seguente:

RewriteCond %{HTTP_REFERER} ^https?://([^.]+\.)*semalt\.com\ [NC,OR]

La con­di­zio­ne è sod­di­sfat­ta se la variabile server %{HTTP_REFERER} cor­ri­spon­de al­l'e­spres­sio­ne regolare definita nel Rew­ri­te­Cond, ad esempio:

^https?://([^.]+\.)*semalt\.com\

Le singole con­di­zio­ni sono collegate dal flag [OR], che si riferisce all’operatore logico oppure. Pertanto, per applicare la Rew­ri­te­Ru­le, deve essere sod­di­sfat­to un solo Rew­ri­te­Cond. Il flag [NC] definisce la stringa di caratteri pre­ce­den­te come non sensibile alle maiuscole (non c’è quindi nessuna dif­fe­ren­za semantica tra maiuscole e minuscole).

In al­ter­na­ti­va è possibile definire alcune parole chiave in Rew­ri­te­Cond che portano a un’esclu­sio­ne se appaiono nel referrer di una richiesta HTTP. Nell’esempio seguente, vengono bloccate tutte le richieste HTTP il cui referrer contiene keyword come porno, pillola o poker.

I confini delle parole chiave do­vreb­be­ro essere indicati tramite RegEx. Per farlo uti­liz­za­te il me­ta­ca­rat­te­re \b.

RewriteEngine on
RewriteCond %{HTTP_REFERER} \bporn\b [NC,OR]
RewriteCond %{HTTP_REFERER} \bpill\b [NC,OR]
RewriteCond %{HTTP_REFERER} \bpoker\b [NC]
RewriteRule .* - [F]

L’esclu­sio­ne delle parole non de­li­mi­ta­te avrebbe lo svan­tag­gio di bloccare le richieste HTTP anche se le com­bi­na­zio­ni di lettere definite in Rew­ri­te­Cond sono uti­liz­za­te in un altro contesto semantico, come nel caso delle richieste HTTP tramite siti del tipo:

http://manu.sporny.org/

www.rittersporn-zuchter.de/

http://www.fersensporn-online.de/

Blocco degli indirizzi IP tramite .htaccess

Notate che gli attacchi spam sul vostro sito web pro­ven­go­no sempre dagli stessi indirizzi Internet? In questo caso si consiglia di bloccare gli IP cor­ri­spon­den­ti o interi campi di indirizzi tramite .htaccess.

Se de­si­de­ra­te bloccare un solo indirizzo IP lato server, basterà inserire un blocco di codice nel vostro file .htaccess, come nell’esempio seguente:

RewriteEngine On
Order Deny,Allow
Deny from 203.0.113.100
Allow from all

In questo modo, tutte le richieste HTTP pro­ve­nien­ti dall’indirizzo IP 203.0.113.100 verranno rifiutate au­to­ma­ti­ca­men­te. Un blocco di codice di questo tipo può contenere numerosi indirizzi IP, basterà elencarli come di seguito:

RewriteEngine On
Order Deny,Allow
Deny from 203.0.113.100
Deny from 192.168.0.23
Allow from all

Per bloccare l’accesso al vostro sito web a un intero in­ter­val­lo di indirizzi, lo si deve scrivere in formato CIDA (Classless Inter-Domain Routing) secondo lo schema seguente:

RewriteEngine On
Order Deny,Allow
Deny from 198.51.100.0/24
Allow from all

Tutte le ri­chie­ste­pro­ve­nien­ti dal gruppo di indirizzi Ip compresi tra 198.51.100.0 e 198.51.100.255 verranno così bloccate.

At­ten­zio­ne: per in­ter­ro­ga­re ra­pi­da­men­te le pagine di de­sti­na­zio­ni da mol­te­pli­ci indirizzi IP dif­fe­ren­ti, gli hacker di solito usano i co­sid­det­ti botnet. Ciò rende pra­ti­ca­men­te im­pos­si­bi­le impedire in modo so­ste­ni­bi­le l’accesso allo spam tramite il blocco degli indirizzi IP.

N.B.

Una botnet è una rete di computer infettati (i co­sid­det­ti PC zombie) che viene uti­liz­za­ta come base per attacchi spam o per l’invio di malware. Per creare una rete di questo tipo gli hacker (i co­sid­det­ti botmaster) infettano i computer non ade­gua­ta­men­te protetti con il loro malware e uti­liz­za­no le risorse di rete per lanciare attacchi contro altri utenti. Le botnet sono ge­ne­ral­men­te con­trol­la­te a livello centrale e co­sti­tui­sco­no il punto di partenza per enormi ondate di spam e di attacchi DDOS su larga scala.

Blocco degli user agent tramite .htaccess

Un altro modo per prevenire gli attacchi spam è quello di bloccare gli user agent il cui ID è uti­liz­za­to dai bot spam per fingersi vi­si­ta­to­ri reali.

Per fare ciò è ne­ces­sa­rio creare una porzione di codice secondo l’esempio seguente:

RewriteEngine On
RewriteCond %{HTTP_USER_AGENT} Baiduspider [NC]
RewriteRule .* – [F,L]

In passato molti gestori di siti web hanno ri­pe­tu­ta­men­te re­gi­stra­to accessi da spam bot che fungevano da searchbot per il motore di ricerca cinese Baidu (Bai­du­spi­der). Se non vi aspettate traffico naturale dalla Cina sul vostro sito web, potete tran­quil­la­men­te bloccare questo crawler per prevenire gli attacchi spam.

Filtro di Google Analytics

La pre­ven­zio­ne dello spam lato server tramite .htaccess è il modo più so­ste­ni­bi­le per prevenire lo spam da parte dei crawler. Tuttavia, l’adat­ta­men­to del file .htaccess richiede molto tempo ed è soggetto a errori. Non tutti i gestori di siti web osano ri­for­mu­la­re le proprie regole di ri­scrit­tu­ra. E c’è un motivo: gli errori possono avere infatti gravi effetti sull’ac­ces­si­bi­li­tà di un sito web. In al­ter­na­ti­va è possibile filtrare i bot au­to­ma­ti­ci di spam dalle sta­ti­sti­che del programma di analisi uti­liz­za­to per prevenire i report corrotti. Vi mo­stre­re­mo come farlo uti­liz­zan­do Google Analytics come esempio.

Google Analytics offre due opzioni per filtrare il referral spam dalla vi­sua­liz­za­zio­ne dei dati.

  • La blacklist del referrer spam di Google
  • I filtri per­so­na­liz­za­ti

Il seguente video di YouTube fa parte del “Digital Analytics Fun­da­men­tals Course” della Analytics Academy e offre un’in­tro­du­zio­ne alla funzione filtro di Google Analytics (per chi lo desideri, è possibile impostare i sot­to­ti­to­li in italiano):

dzwRzUEc_tA.jpg Per visualizzare questo video, sono necessari i cookie di terze parti. Puoi accedere e modificare le impostazioni dei cookie qui.

La blacklist del referrer spam di Google

Anche Google ha ri­co­no­sciu­to il problema del referrer spam nell’analisi delle sta­ti­sti­che degli utenti. Pertanto consente di filtrare au­to­ma­ti­ca­men­te tutti i bot e gli spider co­no­sciu­ti. Per fare ciò, procedete come segue:

1. Aprire le im­po­sta­zio­ni di vi­sua­liz­za­zio­ne dati: aprite il vostro account Google Analytics e cliccate nel menu sulla voce “Am­mi­ni­stra­zio­ne”. Poi se­le­zio­na­te nel menu Vista la voce “Im­po­sta­zio­ni vista”.

2. Attivare la blacklist del referrer spam di Google: scendete in basso fino a “Filtro bot” e se­le­zio­na­te la voce “Escludi tutti gli hit da bot e spider noti”.

Google mostrerà così una versione pulita delle sta­ti­sti­che del vostro sito web.

At­ten­zio­ne: vengono filtrati solo i dati utente che lo strumento può assegnare ai bot spam noti. Il filtro si applica quindi solo ai bot e agli spider presenti nella blacklist di Google.

Filtri per­so­na­liz­za­ti

Google Analytics consente inoltre di impostare filtri a livello di account o di vi­sua­liz­za­zio­ne dati. I filtri definiti a livello di account possono essere applicati a una o più viste dati, a seconda delle esigenze. Se è stato creato un filtro a livello di vista dati, esso si applica solo alla vista se­le­zio­na­ta.

Per prima cosa testate i filtri appena creati, ap­pli­can­do­li a una copia della vista dati de­si­de­ra­ta. Poi procedete come segue.

2. Fare una copia della vi­sua­liz­za­zio­ne dei dati: Andate su “Am­mi­ni­stra­zio­ne” > “Vista” fino al menu “Im­po­sta­zio­ni vista” e cliccate su “Copia vista”.

Nominate la copia come preferite e con­fer­ma­te la procedura cliccando sul pulsante “Copia vista”.

2. Definire i filtri per­so­na­liz­za­ti: se­le­zio­na­te la copia appena creata in “Am­mi­ni­stra­zio­ne” > “Vista” e cliccate nel menu alla voce “Filtri”.

Se avete già creato dei filtri per questa vista dati, Google Analytics li vi­sua­liz­ze­rà in una pa­no­ra­mi­ca.

Per definire un nuovo filtro per­so­na­liz­za­to, fate clic sul pulsante “+ Nuovo filtro” e se­le­zio­na­te “Crea nuovo filtro”.

Assegnate un nome al nuovo filtro (ad esempio referrer spam blocker).

Se­le­zio­na­te le seguenti opzioni su “In­for­ma­zio­ni sul filtro”:

  • Tipo di filtro: “Per­so­na­liz­za­to”
  • “Escludi”
  • Campo filtro: “Sorgente campagna”
N.B.

Il nome del campo “Sorgente campagna” specifica la di­men­sio­ne “Sorgente” per i report di Google Analytics.

Ora avete la pos­si­bi­li­tà di definire un pattern di filtro sotto forma di espres­sio­ne regolare. Uti­liz­za­ta la lista nera di referrer spam creata in pre­ce­den­za. Un tale modello di filtro potrebbe as­so­mi­glia­re al seguente:

(?:([^. ]+)\.)?(?:([^.]+)\.)?(semalt|hulfingtonpost|buttons-for-website|best-seo-solution)\.(com|de|net|org|ru)

3. Verficare i filtri: fate clic su “Controlla filtro” per ve­ri­fi­ca­re in che modo il filtro influisce sulla vi­sua­liz­za­zio­ne dei dati corrente.

N.B.

La verifica funziona solo se la vista se­le­zio­na­ta contiene dati suf­fi­cien­ti.

Fate clic su Salva per com­ple­ta­re l’im­po­sta­zio­ne del filtro. Il nuovo filtro di esclu­sio­ne viene vi­sua­liz­za­to nella pa­no­ra­mi­ca.

4. Applicare i filtri alla vista prin­ci­pa­le: se il filtro per­so­na­liz­za­to funziona, ap­pli­ca­te­lo alla vista prin­ci­pa­le del vostro account Google Analytics.

N.B.

I filtri dati sono un buon modo per ripulire i report di analisi del referrer spam. Ma at­ten­zio­ne: l’opzione filtro di Google Analytics nasconde solo il traffico generato dai bot. Il vero problema, il so­vrac­ca­ri­co dei server da parte di attacchi spam, non è quindi risolto. Una pre­ven­zio­ne dello spam di tipo so­ste­ni­bi­le dovrebbe pertanto basarsi su misure lato server per impedire le visite au­to­ma­ti­che ai siti web da parte degli spam bot.

Bloccare il referrer spam at­tra­ver­so plug-in di WordPress

In qualità di gestore di una home page rea­liz­za­ta tramite WordPress, è possibile pro­teg­ge­re il proprio sito web da crawler spam, at­tra­ver­so plug-in specifici. Il software di terze parti è di­spo­ni­bi­le gra­tui­ta­men­te sulla pagina di WordPress.

Ecco alcuni dei plug-in per bloccare il referrer spam di­spo­ni­bi­li su WordPress:

Vi mostriamo come in­stal­la­re e con­fi­gu­ra­re i plug-in di WordPress contro il referrer spam, uti­liz­zan­do Block Referer Spam come esempio.

In­stal­la­re il plug-in per il referrer spam

Il CMS WordPress consente di gestire i plug-in di­ret­ta­men­te dall’area am­mi­ni­stra­ti­va del software. Per fare ciò, procedete come segue:

1. Aprire l’area am­mi­ni­stra­ti­va di WordPress: per attivare il plug-in per il referrer spam, accedete all’area am­mi­ni­stra­ti­va della vostra pagina WordPress uti­liz­zan­do i dati di accesso.

2. Cercare e in­stal­la­re il plug-in: Andate alla voce di menu “Plugins” e seleziona “Install” per ag­giun­ge­re altri plug-in alla vostra pagina WordPress.

Inserite “Block Referer Spam” nella barra di ricerca e cliccate su “Install” per integrare il plug-in nel vostro sito web.

Il plug-in verrà aggiunto al­l'e­len­co dei plug-in, ma sarà di­sat­ti­va­to.

3. Attivare i plug-in: attivate Block Referer Spam cliccando su “Attiva”.

La nuova voce di menu "Referer Spam" appare nella barra laterale dell'area di am­mi­ni­stra­zio­ne di WordPress.

Con­fi­gu­ra­re i plug-in per il referrer spam

Nell’area di con­fi­gu­ra­zio­ne di Block Referer Spam troverete una breve de­scri­zio­ne del plug-in e diverse opzioni per gli ag­gior­na­men­ti e le funzioni di blocco.

1. Aprire l’area di con­fi­gu­ra­zio­ne: cliccate sulla voce di menu “Referer Spam” per per­so­na­liz­za­re il plug-in.

2. Impostare un piano di ag­gior­na­men­to: se­le­zio­na­te l’opzione di ag­gior­na­men­to software preferita, au­to­ma­ti­ca o manuale.

Consiglio

Uti­liz­za­te l’ag­gior­na­men­to au­to­ma­ti­co per as­si­cu­rar­vi che la blacklist dei plug-in sia con­ti­nua­men­te ampliata con gli indirizzi spam e risulti sempre attuale.

3. Ag­gior­na­re la modalità di blocco: se­le­zio­na­te la modalità blocco preferita. Il plug-in distingue tra un blocco della ri­scrit­tu­ra e un blocco di WordPress.

Consiglio

Se possibile, se­le­zio­na­te il blocco di ri­scrit­tu­ra per impedire in modo rapido ed efficace l'accesso allo spam a livello di server web.

4. Creare una blacklist per­so­na­liz­za­ta per il referrer spam: per prevenire ef­fi­ca­ce­men­te lo spam, è possibile ampliare ma­nual­men­te la blacklist del plug-in. Per fare questo, inserite i siti web ben visibili nel campo fornito a tale scopo sotto la voce “I miei blocchi”.

Salvate la con­fi­gu­ra­zio­ne facendo clic su "Applica modifiche".

Alla voce di menu "Tutte le pagine bloccate" è possibile accedere alla blacklist completa del plug in.

Ghost spam

A dif­fe­ren­za del crawler spam, il ghost spam non in­te­ra­gi­sce affatto con la pagina di de­sti­na­zio­ne. Invece, i bot inviano dati sul traffico fal­si­fi­ca­ti di­ret­ta­men­te ai server degli strumenti di analisi web based. Questi elaborano il traffico falso insieme ai dati reali dell’utente e inoltrano le in­for­ma­zio­ni sotto forma di report ai gestori del sito web. Poiché questo modello di attacco non comporta una visita al sito web, è co­no­sciu­to con il termine ghost spam. Ma qual è lo scopo di tali misure da parte degli hacker?

L’obiettivo degli attacchi di ghost spam è quello di attirare l’at­ten­zio­ne dei gestori dei siti web. Gli hacker fanno af­fi­da­men­to sulla curiosità delle loro vittime. L’idea che c’è dietro è: più spesso il proprio URL compare nei report di analisi di altri siti web, maggiore è la pos­si­bi­li­tà che i gestori delle pagine attaccate ri­chia­mi­no la sorgente di ri­fe­ri­men­to per vedere chi sta generando così tanto traffico. Di solito dietro agli URL dei referrer si na­scon­do­no siti web con annunci display da cui generano dei profitti. Nel peggiore dei casi, i gestori di tali siti web uti­liz­za­no il referrer spam per infettare con malware i computer di vi­si­ta­to­ri ignari.

Uti­liz­zan­do Google Analytics come esempio, vi mostriamo come funziona il ghost spam e cosa potete fare contro questo modello di attacco.

Come funziona il ghost spam?

Nel modelli di attacco ghost spam, gli hacker sfruttano il pro­to­col­lo di mi­su­ra­zio­ne di Google Analytics. Questo viene uti­liz­za­to per tra­sfe­ri­re i dati di traffico tra il vostro sito web e il server web dello strumento di analisi.

Tutto quello di cui gli hacker hanno bisogno per inserire dati su Google Analytics sono dei tracking ID validi. Questo può essere fatto in due modi:

  • gli hacker usano spam bot per leggere il codice HTML dei siti web e leggere gli ID in esso contenuti;
  • i tracking ID vengono creati in modo casuale uti­liz­zan­do un ge­ne­ra­to­re.

Numerosi gestori di siti web integrano il codice di trac­cia­men­to di Google Analytics di­ret­ta­men­te nel codice HTML del loro sito web. Viene uti­liz­za­to il seguente snippet: 

<!-- Google Analytics -->
<script>
window.ga=window.ga||function(){(ga.q=ga.q||[]).push(arguments)};ga.l=+new Date;
ga('create', 'UA-XXXXX-Y', 'auto');
ga('send', 'pageview');
</script>
<script async src='https://www.google-analytics.com/analytics.js'></script>
<!-- End Google Analytics -->

Affinché lo script possa tra­smet­te­re Google Analytics, il se­gna­po­sto di UA-XXXXX-Y deve essere so­sti­tui­to dal tracking ID personale. Questo è quindi ac­ces­si­bi­le da qualsiasi programma che legge il codice HTML di un sito web ap­po­si­ta­men­te preparato.

Questa vul­ne­ra­bi­li­tà può essere risolta con Google Tag Manager. In questo modo i gestori di siti web di­spon­go­no di un’in­ter­fac­cia utente che consente di gestire cen­tral­men­te gli snippet di codice di Google (i co­sid­det­ti tag). Invece di vari tag per diversi servizi Google, viene incluso nel codice HTML solo uno snippet per Google Tag Manager. Il codice di tracking di Google Analytics, compreso l’ID personale, rimane quindi protetto dall’accesso per conto di terzi.

In linea di principio, il ghost spam può influire su qualsiasi rapporto di Google Analytics. Oltre alle in­for­ma­zio­ni sui referrer, per ma­ni­po­la­re i dati sul traffico gli hacker uti­liz­za­no report su top event, parole chiave, landing page e im­po­sta­zio­ni della lingua.

Il russo Vitaly Popov è uno vero e proprio pro­fes­sio­ni­sta del ghost spam. Dal 2014 l’hacker è riuscito ri­pe­tu­ta­men­te a inserire gli URL dei propri siti all’interno degli account di Google Analytics. Alla fine del 2016, l’hacker ha ingannato la comunità di Internet con una pagina di Google per così dire “segreta”. Oltre alle classiche ab­bre­via­zio­ni come it, it-it o en-us, migliaia di utenti di Analytics in tutto il mondo hanno trovato il seguente messaggio nei rapporti sulle im­po­sta­zio­ni lin­gui­sti­che dei vi­si­ta­to­ri del loro sito web:

“Secret.ɢoogle.com You are invited! Enter only with this ticket URL. Copy it. Vote for Trump!“

Ma i gestori di siti web più curiosi, quelli che hanno accettato l’invito, non sono arrivati su Google. Per un semplice motivo:

ɢoogle.com ≠ Google.com

Sono stati invece rein­di­riz­za­ti al sito di Popov, il cui URL contiene quasi tutto il testo della famosa hit dei Pink Floyd “Money”, dall’album del 1973 “The Dark Side of the Moon”.

http://money.get.away.get.a.good.job.with.more.pay.and.you.are.okay.money.it.is.a.gas.grab.that.cash.with.both.hands.and.make.a.stash.new.car.caviar.four.star.daydream.think.i.ll.buy.me.a.football.team.money.get.back.i.am.alright.jack.ilo­ve­vi­ta­ly.com/#.keep.off.my.stack.money.it.is.a.hit.do.not.give.me.that.do.goody.good.bullshit.i.am.in.the.hi.fidelity.first.class.tra­vel­ling.set.and.i.think.i.need.a.lear.jet.money.it.is.a.secret.%C9%A2oogle.com/#.share.it.fairly.but.dont.take.a.slice.of.my.pie.money.so.they.say.is.the.root.of.all.evil.today.but.if.you.ask.for.a.rise.it’s.no.surprise.that.they.are.giving.none.and.secret.%C9%A2oogle.com

Lo scopo dell’URL era un sito web simile a un catalogo web dei primi anni 2000 con col­le­ga­men­ti a vari motori di ricerca e negozi online. Oggi l’URL non porta da nessuna parte. Rimane poco chiaro quale fosse l’obiettivo che Popov avrebbe voluto rag­giun­ge­re con il suo attacco spam. Forse l’hacker era in­te­res­sa­to solo a testare il po­ten­zia­le di inganno dell’URL di ty­po­squat­ting ɢoogle.com.

In sostanza: il ghost spam è fa­sti­dio­so, ma non rap­pre­sen­ta una minaccia per il vostro sito web. Dal momento che il traffico falso non si traduce in vere e proprie aperture del sito web, né il server né i file di log sono gravati da query au­to­ma­ti­che. Tuttavia, il ghost spam può rap­pre­sen­ta­re un problema per chi desidera valutare le sta­ti­sti­che del sito web tramite Google Analytics.

N.B.

Evitate di inserire referrer sospetti sul vostro browser. Al­tri­men­ti c’è il rischio che la pagina di de­sti­na­zio­ne possa infettare il vostro sistema con malware.

Iden­ti­fi­ca­re il ghost spam

Il ghost spam si basa so­li­ta­men­te su tracking ID generati in modo casuale. Lo spam bot non sa quindi quale sito web sia in­te­res­sa­to all’attacco. Ciò è ri­scon­tra­bi­le da in­coe­ren­ze nei dati di Google Analytics.

Se un utente au­to­riz­za­to accede al vostro sito web tramite un link, l’header della richiesta nel campo HTTP “Host” contiene ine­vi­ta­bil­men­te un nome host che può essere assegnato alla vostra rete.

I bot che inviano traffico falso, tuttavia, non conoscono questi nomi e riempiono il campo host con un se­gna­po­sto casuale. In al­ter­na­ti­va, il campo rimane vuoto e Google Analytics definisce l’host come non impostato. Uti­liz­za­te questo schema per iden­ti­fi­ca­re il ghost spam nel vostro account Google Analytics. Si rac­co­man­da la seguente procedura:

1. Vi­sua­liz­za­re il rapporto di rete: vi­sua­liz­za­te il rapporto di rete se­le­zio­nan­do dal menu “Pubblico” > “Tec­no­lo­gia” > “Rete” e scegliete “Nome host” come “Di­men­sio­ne prin­ci­pa­le”.

2. Impostare il periodo di vi­sua­liz­za­zio­ne: impostate il periodo di os­ser­va­zio­ne agli ultimi tre mesi.

3. Iden­ti­fi­ca­re i nomi host: nella prima colonna del report, Google Analytics mostra tutti i nomi host che hanno in­di­riz­za­to al vostro sito web. Qui do­vreb­be­ro apparire prin­ci­pal­men­te i nomi che possono essere assegnati ai domini at­tra­ver­so i quali si mette a di­spo­si­zio­ne il proprio sito web. Inoltre, troverete qui i domini di Google che sono re­spon­sa­bi­li per le tra­du­zio­ni e le versioni web cache del vostro sito web.

translate.goo­gleu­ser­con­tent.com

webcache.goo­gleu­ser­con­tent.com

Se nel report di rete trovate altri nomi host che non cor­ri­spon­do­no ai domini o alle pagine di supporto di Google, si tratta di ghost spam.

4. Creare un’espres­sio­ne di rete regolare: annotate tutti i nomi host per i quali si desidera valutare i dati relativi al traffico sotto forma di espres­sio­ne regolare. Ad esempio:

^(www\.)?(example|goo­gleu­ser­con­tent)\.com

Questo vi servirà più tardi come modello di filtro. As­si­cu­ra­te­vi che l’espres­sio­ne regolare comprenda tutti i nomi host di cui si desidera ana­liz­za­re il traffico tramite Google Analytics.

In sintesi

Il ghost spam può essere iden­ti­fi­ca­to dal fatto che l’host spe­ci­fi­ca­to nella richiesta HTTP non cor­ri­spon­de agli host della rete.

Filtra il ghost spam

Per na­scon­de­re il ghost spam dal vostro account Google Analytics tutto quello che dovete fare è filtrare tutti i nomi host che non fanno parte della rete, uti­liz­zan­do il filtro apposito per la vi­sua­liz­za­zio­ne dei dati.

1. Se­le­zio­na­re la copia della vista dati: passate alla gestione del vostro account Google Analytics e create una copia della vista dati oppure se­le­zio­na­te la copia creata in pre­ce­den­za.

2. Definire i filtri: se­le­zio­na­te la voce di menu “Filtro” e cliccate su “+ Nuovo Filtro” > “Crea Nuovo Filtro”.

Immettete il nome di un filtro (ad esempio hostname blocker).

Ef­fet­tua­te le seguenti im­po­sta­zio­ni in “In­for­ma­zio­ni sul filtro”:

  • Tipo di filtro: “Per­so­na­liz­za­to”
  • “Includi”
  • Campo filtro: “Nome host “

In “Pattern filtro” inserite l’espres­sio­ne regolare creata in pre­ce­den­za per includere solo i nomi host della rete nella vi­sua­liz­za­zio­ne dei dati.

3. Ve­ri­fi­ca­re i filtri: fate clic su “Controlla filtro” per ve­ri­fi­ca­re in che modo il filtro influisce sulla vi­sua­liz­za­zio­ne dei dati se­le­zio­na­ti. Cliccate su “Salva”.

4. Applicare i filtri alla vi­sua­liz­za­zio­ne: se il filtro funziona come de­si­de­ra­to, tra­sfe­ri­te­lo nella vista prin­ci­pa­le dei dati.

Tutti i dati utente trasmessi tramite ghost spam saranno così nascosti. Ora potrete fi­nal­men­te ana­liz­za­re le sta­ti­sti­che del vostro sito web senza pre­oc­cu­par­vi di eventuali con­ta­mi­na­zio­ni da questo tipo di spam.

Vai al menu prin­ci­pa­le