Test Bayesiano per Decisioni Veloci nel Performance Marketing

Nel performance marketing, la velocità del test è un vantaggio competitivo. Con lo scenario di A/B test frequentist tradizionale, aspetti due settimane prima che l'intervallo di confidenza si stabilizzi — intanto il budget della campagna si consuma. L'approccio Bayesiano ti fornisce ogni giorno una distribuzione posteriore aggiornata — puoi affermare "la variante B ha il 73% di probabilità di vincere" anche prima che il test sia concluso. Questo articolo spiega la meccanica del test A/B Bayesiano, le regole di decisione sequenziale e la dinamica della dimensione campionaria. Supererai il vincolo dell'orizzonte fisso frequentist, passando all'aggiornamento continuo delle decisioni all'interno del flusso dati quotidiano.

Il Problema dell'Orizzonte Fisso nel Test Frequentist

Il test A/B classico si basa su p-value e dimensione campionaria fissa. Inizi il test affermando "ho bisogno di n=5000 visitatori, ci vorranno 14 giorni" — e fino al 14º giorno non puoi giungere a nessuna conclusione definitiva. Durante questo periodo, continui a inviare traffico alla variante perdente — anche se il tasso di conversione è inferiore di 2 punti percentuali, sei obbligato ad attendere il 14º giorno senza rompere il piano. Se interrompi anticipatamente, l'errore di tipo I si amplifica, emerge il problema del multiple testing.

La logica frequentist, con il suo soglia p < 0.05, fornisce significatività statistica ma non necessariamente rilevanza pratica. Per esempio, un incremento dello 0.5% può risultare statisticamente significativo (grazie a una dimensione campionaria ampia) ma l'impatto operativo è nullo. L'intervallo di confidenza e l'effect size richiedono interpretazione separata — il framework frequentist non lo mostra automaticamente.

Un'altra limitazione: non puoi fare monitoring sequenziale. Calcoli la dimensione campionaria all'inizio del test e attendi fino al raggiungimento di quel campione. Se una variante sta vincendo chiaramente durante questo periodo, sei comunque obbligato a proseguire il test per non invalidiare il p-value. Diversamente, stai "peeking" ai dati, e il p-value perde validità.

Test Bayesiano: Distribuzione Posteriore Aggiornata

L'approccio Bayesiano si basa sulla logica: prior belief + dati = posteriore. All'inizio del test, definisci una distribuzione prior per il tasso di conversione di ogni variante (solitamente uninformativo Beta(1,1) oppure informativo basato su dati storici). Ogni visitatore che arriva aggiorna il posteriore mediante il teorema di Bayes. Al 100º visitatore il posteriore ha una forma, al 200º visitatore ne ha un'altra — aggiornamento continuo.

La distribuzione posteriore rappresenta letteralmente "la densità di probabilità del vero tasso di conversione di questa variante". Per esempio, un posteriore Beta(25, 75) indica che il tasso di conversione tra il 20% e il 30% ha alta densità di probabilità. Confrontando i posteriori di due varianti, puoi calcolare "la probabilità che B sia migliore di A" — questa formula P(B > A) emerge naturalmente nel mondo Bayesiano.

La versione sequenziale del test Bayesiano: aggiorna il posteriore ogni giorno, e quando P(B > A) > 0.95 ferma il test. Questa soglia riflette la tua tolleranza al rischio — puoi usare il 90% o il 99% invece del 95%. Nel framework frequentist non esiste tale meccanismo: la tua unica opzione è l'orizzonte fisso. Nel Bayesiano, puoi decidere in qualsiasi momento perché il posteriore fornisce informazione completa.

Nel test Bayesiano non esiste il p-value. Al suo posto usi metriche come: probability of superiority P(B > A), expected loss (il lift atteso che perdi se scegli A quando B è effettivamente migliore), credible interval (l'intervallo al 95% della distribuzione posteriore). Queste sono più interpretabili nella pratica — puoi dire "la variante B ha l'85% di probabilità di vincere e se vince offre un lift medio del 2.3%".

Codice di Aggiornamento del Posteriore

import numpy as np
from scipy.stats import beta

# Prior: Beta(1,1) = uniforme
prior_alpha, prior_beta = 1, 1

# Dati in arrivo: variante A con 50 conversioni, 200 visite
conversions_A = 50
visits_A = 200
failures_A = visits_A - conversions_A

# Posteriore: Beta(alpha + conversioni, beta + fallimenti)
post_alpha_A = prior_alpha + conversions_A
post_beta_A = prior_beta + failures_A

# Campiona dalla distribuzione posteriore
samples_A = beta.rvs(post_alpha_A, post_beta_A, size=10000)

# Stesso processo per la variante B
conversions_B = 60
visits_B = 200
failures_B = visits_B - conversions_B
post_alpha_B = prior_alpha + conversions_B
post_beta_B = prior_beta + failures_B
samples_B = beta.rvs(post_alpha_B, post_beta_B, size=10000)

# Calcola P(B > A)
prob_B_wins = (samples_B > samples_A).mean()
print(f"P(B > A): {prob_B_wins:.2%}")  # Esempio: 0.82 = 82% di probabilità che B vinca

Dynamic Sample Size e Early Stopping

Nel test Bayesiano la dimensione campionaria non è fissa. Puoi fissare un limite minimo all'inizio del test — per esempio "almeno 1000 visitatori" (affinché il posteriore non sia eccessivamente ampio) — ma il limite superiore è dinamico. Quando P(B > A) > 0.95 fermi il test — potrebbe accadere al 500º visitatore oppure al 5000º.

La metrica expected loss è eccellente per decisioni precoci. Formula: E[Loss] = E[max(0, CR_winner - CR_chosen)]. In altre parole, se scegli A ma B è effettivamente migliore, l'incremento di tasso di conversione che stai perdendo in aspettativa. Fissa una soglia di loss — per esempio "ELoss < 0.5%" — e ferma il test con la garanzia "nel peggiore dei casi perdo lo 0.5% di lift". Questa metrica facilita decisioni risk-averse.

Esempio di regola di stopping sequenziale:

Metrica	Soglia	Azione
P(B > A)	> 0.95	Dichiara B come vincitore
P(A > B)	> 0.95	Dichiara A come vincitore
ELoss	< 0.005	Chiudi la variante perdente
Visite minime	< 1000	Non decidere ancora

Grazie a queste regole, la durata del test si accorcia in media del 30-40% (secondo i dati dei motori Bayesiani di Google Optimize e VWO). In scenari di grande effect size, puoi decidere con il 95% di confidence in 3 giorni — con il frequentist aspettavi 14 giorni.

La differenza con il multi-armed bandit: il test A/B Bayesiano non esegue ancora optimization exploration-exploitation; esegue solo aggiornamento posteriore e regole di stopping. L'algoritmo bandit ottimizza dinamicamente la distribuzione del traffico (come Thompson Sampling), il test Bayesiano usa uno split fisso (50/50) ma termina prima. Il bandit è più aggressivo — ad ogni impression alloca più traffico alla variante vincente. Il test Bayesiano è più conservatore — lo split rimane fisso, solo la decisione è veloce.

Prior Informativo e Test di Incrementality

La scelta del prior è il punto critico del test Bayesiano. Un prior uninformativo (Beta(1,1)) ignora la conoscenza passata, producendo un posteriore completamente data-driven. Un prior informativo invece proviene da test storici o da tassi di conversione baseline per segmento. Per esempio, se nei tuoi ultimi 50 test su dispositivi mobili la media è stata il 12% di conversione, puoi usare un prior Beta(60, 440) (approssimativamente 12% di media, ma con variabilità). Questo prior fornisce al nuovo test un'assunzione "ragionevole rispetto alla storia".

Il vantaggio di un prior informativo è ridotto il bisogno di sample size. L'aggiornamento posteriore non parte da zero; comincia da un punto informato. Lo svantaggio è il potenziale bias: se il prior è scelto male, distorce il risultato. Se il segmento è cambiato o c'è un effetto stagionale, il prior vecchio induce in inganno. Pertanto, un'analisi di sensibilità del prior è necessaria — verifica se i risultati cambiano con prior diversi.

Nei processi di Conversion Rate Optimization, il test Bayesiano facilita la misurazione dell'incrementality. Un test di incrementality richiede un holdout group o un geo-split. Con l'approccio Bayesiano, confronti il posteriore del tasso di conversione del gruppo holdout con quello del gruppo test — ottieni una distribuzione del lift. Invece del t-test classico, calcoli P(lift > 0), che è più interpretabile. Puoi dire "la nuova campagna ha il 78% di probabilità di generare incrementality, e il lift atteso è tra 1.2% e 2.8%".

Confronto Tra Scelte di Prior

# Prior uninformativo
prior_uninf = beta(1, 1)

# Prior informativo: conversione storica del 12%, n=500 campioni
# Beta media = alpha / (alpha + beta) → 60/500 = 0.12
prior_inf = beta(60, 440)

# Posteriore con 20 conversioni, 100 visite
conversions, visits = 20, 100
post_uninf = beta(1 + conversions, 1 + (visits - conversions))
post_inf = beta(60 + conversions, 440 + (visits - conversions))

# Medie posteriori
print(f"Media posteriore uninformativo: {post_uninf.mean():.2%}")  # ~20%
print(f"Media posteriore informativo: {post_inf.mean():.2%}")      # ~13.3%

Il prior uninformativo è sensibile ai dati su campioni piccoli; il prior informativo regolarizza usando la conoscenza passata.

Trade-off: Test Bayesiano vs Frequentist vs Bandit

Il test Bayesiano non è ottimale in tutti gli scenari. Il test frequentist è preferibile in ambienti regolamentati (soprattutto medicinale/finanziario) perché lo standard del p-value è codificato, e i processi di peer-review si basano su di esso. La scelta del prior Bayesiano può apparire soggettiva. Se il regolamento richiede il p-value e non c'è flessibilità sulla durata (per esempio, un periodo fisso di 30 giorni è obbligatorio), il frequentist è razionale.

Gli algoritmi bandit (Thompson Sampling, UCB) bilanciano automaticamente exploration-exploitation, ottimizzando dinamicamente la distribuzione del traffico. In scenari di test prolungato (3+ settimane), un bandit supera il Bayesiano A/B perché invia meno traffico alla variante perdente. In test brevi (1-2 settimane), il test A/B Bayesiano è sufficiente — il vantaggio di regret minimization del bandit non emerge in poco tempo.

Se la dimensione campionaria è molto piccola (per esempio, 100 visitatori al giorno), né Bayesian né frequentist forniscono garanzie. La distribuzione posteriore diventa così ampia che P(B > A) non raggiunge mai il 95%. In questi casi, il test su micro-conversioni (click, add-to-cart — eventi più frequenti) oppure test aggregati per geografia sono preferibili. Bayesian non offre vantaggio su campioni minuscoli; fornisce solo output interpretabile.

La vera forza del test Bayesiano è l'orchestrazione di test cross-channel. Supponi di eseguire un test creativo su paid channel e contemporaneamente un test CRO sulla landing page. Puoi combinare i posteriori di entrambi i test (posteriore congiunto) e separare il contributo al lift. Con il frequentist servirebbe un'ANOVA complessa; con Bayesian e Markov Chain Monte Carlo (MCMC) il calcolo è naturale.

Implementazione Pratica: Platform e Tooling

Google Optimize (il server è stato disattivato) usava un motore Bayesiano. Oggi per test Bayesiano open-source ci sono la libreria Python bayesian-testing o il pacchetto R bayesAB. In un ambiente di produzione devi costruire il tuo stack — puoi scrivere SQL UDF in BigQuery per calcolare il posteriore oppure creando un modello dbt per il pipeline posteriore.

Esempio di macro dbt: i dati del test arrivano ogni giorno, la macro aggiorna i parametri alpha/beta del posteriore, calcola P(B > A). Quando la soglia è superata, un notifiche Slack viene inviato. Così il monitoraggio manuale è sostituito da una regola di stopping automatizzata. Aggiungi credible interval e metriche di expected loss al dashboard — gli stakeholder vedono "il 82% di probabilità che B vinca adesso" invece di chiedere "quando decidiamo?".

Le piattaforme di AB testing (VWO, Optimizely) hanno aggiunto motori Bayesiani, ma i risultati Bayesiani non sono il default — mostrano sia frequentist che Bayesian. Perché la scelta del prior è un tuo parametro, non automatizzata dalla piattaforma. La piattaforma assume prior uninformativo; se vuoi prior informativo, serve configurazione custom. Per questo motivo, a larga scala il testing Bayesiano preferisce tooling interno.

Il test multi-variante (A/B/C/D) in Bayesian è più semplice. Nel frequentist serve correzione per confronti multipli (Bonferroni, Holm); nel Bayesian calcoli il posteriore di ogni variante separatamente e accedi a tutte le coppie: P(C > A), P(D > B), e così via. La scelta del vincitore: la variante con la media posteriore più alta oppure la più bassa expected loss.

Il test A/B Bayesiano accelera la velocità decisionale nel performance marketing. Elimina il vincolo dell'orizzonte fisso frequentist, fornendo monitoring sequenziale. La distribuzione