Errori statistici e altri ostacoli nell’A/B testing

Verificare la funzionalità di diversi elementi con l’aiuto di A/B test, è oggi prassi comune della maggior parte degli sviluppatori e gestori di siti web. Se sia disponibile abbastanza traffico, lo rivela rapidamente lo svolgimento stesso del test, ad esempio se uno scenario A porti più facilmente alla conversione desiderata rispetto ad uno B. Ma, sia nella pianificazione che anche durante la fase di test vera e propria e di valutazione finale vi aspettano alcuni ostacoli. Quali errori statistici e sbagli siano particolarmente diffusi e quale sia la maniera migliore per evitarli, lo scoprite di seguito.

Gli errori principali nella pianificazione di un A/B test

Ancora prima che si inizi con il test, ipotesi errate e di conseguenza una fase preparatoria sbagliata possono portarvi già verso l’insuccesso.

Errore 1: rinunciare ad un’ipotesi, puntando invece sulle casualità

L’errore più grave che si possa fare nella fase preparatoria, è quello di rinunciare ad un’ipotesi e poi sperare che, testando un numero abbastanza alto di varianti, ci siano già quelle giuste. Sebbene aumenti con il numero di varianti del test scelte a caso anche la possibilità di poter trovarne una vincente, allo stesso tempo aumenta anche la possibilità che questa variabile vincente in realtà non rappresenti alcun miglioramento per il sito web. In una singola variante, solamente nel 5% di tutti i casi ci si imbatterà in un’ottimizzazione importante della variabile del test, ma che non ha nessun effetto nella realtà. La probabilità di un errore alfa di questo tipo aumenta con il numero di varianti inserite: con tre diversi oggetti testati sono già, ad esempio, il 14%, con otto varianti già il 34%. Se prima non formulate nessuna tesi, non sapete poi per quale ragione la variante stabilita come vincitrice provochi un’ottimizzazione. Se invece formulate prima, ad esempio, l’ipotesi che l’aumento delle dimensioni di un pulsante porti ad un aumento delle conversioni, allora potete classificare i risultati raccolti.

In sintesi un A/B test non si determina in alcun modo basandosi sulle causalità, ma dovrebbe sempre essere spinto da ipotesi e limitato nel numero delle sue varianti. Inoltre, se lavorate con tool come Optimizely, che evitano un aumento della percentuale di errori, eseguire un A/B testing di successo non sarà un problema.

Errore 2: indicatori sbagliati influenzano il successo di una variante del test

Anche nell’A/B testing gli indicatori chiave di prestazione (KPI), cioè le caratteristiche distintive del vostro progetto, hanno un ruolo importante che non dovreste trascurare. Mentre l’aumento delle aperture di una pagina e di click per un blog o un portale di notizie sono già delle conversioni di qualità, questi fattori per un negozio online non sono più un trend positivo. Per i negozi numeri come ordinazioni, tasso di risposta, fatturato o guadagno sono decisamente più importanti. Sulla base della difficoltà nel misurarli, gli A/B test che mirano ai KPI principali (come i guadagni assoluti) sono legati comprensibilmente ad un alto dispendio di energie. In cambio però offrono moltissime previsioni affidabili rispetto a questo tipo di test, che ad esempio considerano solo il posizionamento di un articolo nel carrello. Infatti in questi casi è ancora sempre possibile che il cliente, alla fine, non effettui alcun acquisto.

È quindi importante trovare i valori rilevati adatti, anche se non dovreste sceglierne troppo diversi. Limitatevi invece ai fattori essenziali e ricordatevi delle ipotesi prima formulate. Questo riduce il rischio di presuppore erroneamente un aumento continuativo, dove in realtà c’è solo un effetto incidentale senza continuità. 

Errore 3: escludere categoricamente un test multivariato

In alcuni casi vi trovate davanti ad un problema durante la preparazione di un A/B test: il voler testare più elementi nelle varianti. Con un A/B test semplice questo non è davvero realizzabile, ragion per cui vengono in mente molte alternative rispetto agli A/B test multivariati. Tuttavia questa idea è spesso scartata completamente perché i test multivariati sono considerati troppo dispendiosi e inesatti. Però possono essere, se configurati correttamente, la soluzione ottimale del problema menzionato: con i tool giusti le diverse pagine testate non sono solo velocemente regolate, ma poi anche facilmente analizzate. Inoltre, con un po’ di pratica si può stabilire l’influenza dei singoli componenti modificati. Ma il prerequisito è che il sito web abbia abbastanza traffico.

La possibilità di dichiarare vincitrice una variante sbagliata aumenta allo stesso modo come in un A/B testing con il numero delle varianti del test applicate: una limitazione sulla base di una preselezione è dunque consigliabile anche in questo metodo. Per ottenere la certezza che una versione potenzialmente migliore superi nei fatti l’originale, potete verificare il risultato a posteriori con un A/B test. Ma resta comunque la probabilità solita di un errore alfa del 5%. 

Errori statistici e ostacoli durante l’esecuzione del test

Se il test è online e tutti i dati rilevanti sono registrati come desiderato, molti credono che uno svolgimento di successo di un A/B test non sia più un problema. Ma impazienza ed errori di valutazione portano spesso a sbagliarsi. Per questo si dovrebbero evitare assolutamente i seguenti errori tipici.

Errore 4: bloccare lo svolgimento del test prima del tempo o accorciarlo

La possibilità già durante il test di scegliere statistiche dettagliate è quanto mai utile, ma porta spesso a trarre conclusioni affrettate e a terminare l’A/B Test troppo presto. Di fatto vale che ogni test ha bisogno di una minima dimensione di svolgimento perché fin dall’inizio i risultati oscillano fortemente. Inoltre l’espressività aumenta a seconda di quanto a lungo dura la fase del test, perché con la durata del test migliorato passo per passo gli effetti casuali possono essere eliminati. Se interrompete il vostro test troppo presto, rischiate di ottenere un’immagine completamente sbagliata sulla performance della variante e di valutarla in maniera sbagliata: o troppo bene o troppo male.

Dal momento che non è facile stabilire la durata ottimale del test ci sono diversi tool che vi possono aiutare nel conteggio. Naturalmente ci sono anche buone ragioni per tirare le somme su di un test prima del tempo, ad esempio quando una variante importante inizia con una brutta prestazione che potrebbe compromettere i vostri interessi economici.

Errore 5: approfittare di procedimenti moderni per accorciare la durata del test

È già chiaramente emerso che i diversi tool per eseguire A/B test lavorano con processi, che mantengono nelle variabili applicate una percentuale di errore più bassa possibile. La statistica bayesiana, che usa ad esempio le applicazioni Optimizely e Visual Website Optimizer, promette inoltre risultati oltremodo solidi quando le dimensioni minime del test non sono ancora state raggiunte. Anche qui rischiate di cadere in errori statistici quando usate come base per la vostra valutazione un parametro interrotto troppo presto. Infatti se da un lato il metodo si basa sulle vostre stime riguardo al successo di una variante, dall’altro però anche la statistica bayesiana non può identificare gli effetti casuali iniziali come tali.

Errori comuni nel valutare i risultati di un A/B test

Indubbiamente è già una grande sfida trovare KPI adatti per formulare ipotesi calzanti e infine organizzare ed eseguire l’A/B test. La vera sfida vi aspetta però solo alla fine quando bisogna analizzare i valori raccolti ed esaminare i vostri utenti per il successo del vostro sito web. Il fatto che gli stessi professionisti possano incappare in una percentuale di errore è fuori dubbio. Errori da principianti come quelli che vengono illustrati nei seguenti paragrafi, dovrebbero però essere assolutamente evitati. 

Errore 6: Affidarsi solamente ai risultati dei tool che eseguono il test

I tool più usati per eseguire i test non vi aiutano solo ad iniziare un test e a rappresentare tutti i dati raccolti graficamente, ma consegnano anche allo stesso tempo dati completi se le varianti corrispondenti rappresentano un miglioramento e fino a quale misura viene influenzato un aumento del vostro tasso di conversione. Inoltre si stabilisce anche una variante come vincitrice assoluta. Questi tool non possono quindi misurare KPI come il fatturato complessivo o il ritorno sull’investimento perché devono per forza di cose coinvolgere anche informazioni esterne. In particolare quando i risultati non rispecchiano le aspettative vale la pena dare un’occhiata ai risultati del vostro programma di analisi web separatamente, che di regola offre una panoramica dettagliata sul percorso dell’utente.

L’analisi specifica dei singoli dati è anche l’unico modo per stabilire se ci siano degli outlier e filtrare eventualmente il risultato complessivo. Come questo possa essere un criterio decisivo per evitare una falsa ipotesi, lo chiarisce il seguente esempio: una variante A viene indicata dal tool come versione ottimale e tiene anche in considerazione il fatturato ottenuto che viene raggiunto grazie al miglior risultato della variante A. Ma in un’analisi più attenta non passa inosservato che questa circostanza potrebbe essere riconducibile ad un particolare acquisto di un singolo utente (un cliente B2B). Se si aggiunge a questo un acquisto fuori dalla statistica, la variante B presenterà improvvisamente un miglior risultato in termini di fatturato.

Lo stesso esempio si lascia usare anche per il carrello, la percentuale di ordinazioni o altri diversi KPI. In questi casi noterete che i valori estremi possono influenzare il valore medio fortemente e arrivare così velocemente a false conclusioni.  

Errore 7: segmentare i risultati in maniera troppo netta

Naturalmente l’esame dettagliato dei dati dell’A/B test in combinazione con fonti di dati esterne apre anche altre opzioni. Particolarmente amato è il fatto che i risultati assegnano gruppi di utenti ben definiti. Così ad esempio scoprite come gli utenti di un gruppo di età ben definito hanno reagito in una regione ben precisa o in certo browser rispetto ad una specifica variante. Più segmenti confrontate tra loro, più alta sarà però la probabilità di errore.

A questo riguardo dovreste impegnarvi perché i gruppi scelti possiedano una grande rilevanza per i vostri concept del test e rappresentino una parte significativa degli utenti nel complesso. Ad esempio, quando vi concentrate solo sugli utenti che sono maschi e sotto i 30 anni, che accedono da tablet e visitano la vostra pagina solo durante il weekend, scoprirete che la portata del test non è in nessun caso rappresentative di tutto il target. Quando pianificate già da prima di segmentare i risultati di un A/B test, dovreste assolutamente stimare anche una durata del test consona.

Errore 8: mettere in discussione il successo per via di stime imprecise

Per chiarire se il passaggio ad una nuova variante influirà in futuro sulla percentuale di conversioni, i risultati del test A/B si usano spesso come base per concreti calcoli estimativi. Per i fini di presentazione questo potrebbe essere un mezzo efficace, ma questo tipo di previsioni basate su diversi fattori di influenza non sono davvero praticabili. Mentre i risultati di un test A/B danno solamente spiegazioni sulle modifiche a breve termine nel comportamento dell’utente, gli effetti a lungo termine come l’influsso della soddisfazione del cliente entro la breve durata del test non sono misurabili; presupporre la costanza di una crescita rilevata, è quindi affrettato. Inoltre ci sono i condizionamenti, come ad esempio debolezze stagionali, difficoltà di consegna, modifiche nella scelta dei prodotti, modifiche del gruppo dei clienti o problemi tecnici, che non possono essere inclusi nell’A/B test.

Come con gli altri errori statistici e con le incongruenze durante l’esecuzione e la valutazione di un test sull’usabilità del sito web bisogna affrontare la situazione con calma. Conclusioni affrettate portano in fretta anche ad essere delusi dai risultati conclusivi in tempo reale, anche se la versione ottimizzata del sito web funziona davvero bene. Solo quando nella formulazione di una previsione e nella conseguente valutazione di quella tesi vi affidate ad un modo di lavorare pulito e ben pensato, i risultati dell’A/B test si potranno analizzare chiaramente e interpretare.