Décision Rapide avec le Test A/B Bayésien

La méthode classique de test A/B s'en tient à une condition de taille d'échantillon fixe. Vous attendez N visiteurs, effectuez un test-t, vérifiez la p-valeur. Or la réalité du marché est celle-ci : si la variante B échoue clairement chaque jour, brûler du trafic de test pendant deux semaines supplémentaires est un gaspillage. L'approche bayésienne résout ce problème — en mettant à jour chaque jour la distribution a posteriori pendant le test, vous pouvez dire « la probabilité que la variante A gagne maintenant est de 94 % ». Vous définissez vous-même votre seuil de décision, sans être asservi à la rigidité p < 0,05 du fréquentiste.

Les Limites Structurelles du Test Fréquentiste

Le test A/B traditionnel repose sur le cadre Neyman-Pearson. Vous définissez une hypothèse nulle (H₀ : pas de différence entre les variantes), vous fixez un niveau alpha (généralement 0,05), vous décidez d'un effet minimum détectable (MDE), vous effectuez une analyse de puissance (80 %), puis vous attendez d'atteindre la taille d'échantillon calculée avant d'examiner les résultats. Jeter un coup d'œil au test avant sa fin gonfle l'erreur de type I — c'est pourquoi « peeking » est interdit.

Le problème : dans les campagnes numériques, le trafic coûte de l'argent chaque jour. Si le calcul de la taille d'échantillon indique 12 000 utilisateurs et que vous recevez 800 personnes par jour, vous attendrez 15 jours. Mais si au jour 5 le taux de conversion de la variante B baisse de 2,1 % à 1,3 %, vous attendrez quand même 10 jours supplémentaires. La méthodologie fréquentiste le justifie parce que « l'arrêt précoce = biais ». En réalité, le scénario de test n'est pas statique — le budget de campagne est limité, il y a de la saisonnalité, les concurrents peuvent faire des mouvements. La condition de taille d'échantillon rigide n'offre aucune flexibilité.

Il y a aussi ceci : la p-valeur donne seulement « la probabilité de voir ces données si H₀ est vrai ». Elle ne dit pas la probabilité que la variante A soit réellement meilleure. Vous obtenez p = 0,03, vous rejetez H₀, mais vous ne pouvez pas dire « A a 97 % de chance de battre B ». Le langage fréquentiste ne vous donne que la « signification statistique », qui est insuffisant pour décider.

La Logique de l'Approche Bayésienne

Le cadre bayésien transforme la connaissance a priori en distribution a posteriori. A priori : votre croyance sur le taux de conversion avant le début du test. Au fur et à mesure que les données arrivent, le théorème de Bayes met à jour l'a priori. A posteriori : la distribution probable du taux de conversion selon les données vues jusqu'à présent.

Formule :
P(θ | data) ∝ P(data | θ) × P(θ)

θ = taux de conversion, data = nombre de succès/échecs observés. Likelihood (vraisemblance) × a priori → a posteriori. La distribution Bêta est conjuguée, donc le calcul est facile : si la variante A observe α succès et β échecs, l'a posteriori = Bêta(α+1, β+1).

Chaque jour, lorsque de nouvelles données arrivent, vous mettez à jour l'a posteriori. L'avantage critique du test séquentiel est celui-ci : vous comparez les distributions a posteriori, calculez par simulation Monte-Carlo « la probabilité que le taux de conversion de A soit supérieur à B ». Si elle dépasse 95 %, vous décidez. Ce n'est pas comme le fréquentiste « atteindre N, puis regarder », mais plutôt « regarder chaque jour, arrêter si le seuil est atteint ».

Exemple de Calcul de l'A Posteriori

import numpy as np
from scipy.stats import beta

# Variante A : 120 conversions, 1200 impressions
alpha_A = 120 + 1  # +1 pour a priori uniforme
beta_A = (1200 - 120) + 1

# Variante B : 95 conversions, 1150 impressions
alpha_B = 95 + 1
beta_B = (1150 - 95) + 1

# Monte-Carlo : prélever 10 000 échantillons
samples_A = beta.rvs(alpha_A, beta_A, size=10000)
samples_B = beta.rvs(alpha_B, beta_B, size=10000)

# Probabilité A > B
prob_A_wins = (samples_A > samples_B).mean()
print(f"P(A > B) = {prob_A_wins:.3f}")

Exemple de résultat : P(A > B) = 0.983 — A gagne avec 98,3 % de confiance. Avec les mêmes données, un test-t fréquentiste pourrait donner p = 0,06 (non significatif), mais Bayesian dit 98 %. Lequel est plus significatif pour une décision commerciale ?

Tests Séquentiels et Arrêt Anticipé

Le test bayésien est conçu de manière séquentielle. Mettez à jour l'a posteriori chaque jour, vérifiez le seuil de décision. La métrique « Probability to be best » dépasse 95 % ? Arrêtez, déployez le gagnant. Cet arrêt anticipé ne gonfle pas l'erreur de type I comme en fréquentiste, puisque le critère de décision est la probabilité a posteriori, pas la p-valeur.

Application pratique :

Définissez l'a priori (généralement Beta(1,1) non informatif — distribution uniforme)
Collectez les données de conversion chaque jour
Calculez l'a posteriori
Calculez P(A > B) et P(B > A)
Si l'un dépasse 95 %, arrêtez le test
Si 14 jours passent sans atteindre 95 %, terminez comme « inconclus » (données insuffisantes)

Cette approche est critique dans les processus d'optimisation du taux de conversion. Si une variante de landing page montre une baisse de 30 % en clics de CTA au cours des 3 premiers jours, l'a posteriori bayésien dit « B est mauvais » avec 96 % de confiance. La règle de taille d'échantillon fréquentiste vous forcerait à attendre 10 jours supplémentaires, mais vous pouvez arrêter le jour 3, rediriger le trafic vers A. Le coût d'opportunité baisse.

Dynamique de la Taille d'Échantillon

En bayésien, il n'y a pas de taille d'échantillon fixe, mais vous pouvez estimer « l'espérance de taille d'échantillon ». Cela dépend de l'informativité de l'a priori. Si vous savez que le taux de conversion historique est autour de 10 %, vous rendez l'a priori informatif, Bêta(10,90), moins de données sont nécessaires. Si vous utilisez un a priori non informatif, cela prend plus longtemps, mais vous avez quand même une chance d'arrêt plus précoce qu'en fréquentiste.

Tableau de simulation (exemple) :

Vrai Δ	Fréquentiste N	Bayésien E(N)	Bayésien 90e percentile N
+10%	4 800	3 200	5 100
+20%	1 200	800	1 400
+5%	19 200	14 000	22 000

Pour les petits gains, Bayésien prend aussi du temps, mais moins rigidement que fréquentiste. Pour les grands gains, possibilité de résultats 30-40 % plus rapides.

Arguments Contraires et Compromis

1. Le choix de l'a priori est subjectif : Vrai, vous apportez une connaissance préalable. Mais si vous utilisez un a priori non informatif (Bêta(1,1)), ce problème est minimisé. De plus, avec beaucoup de données, l'effet de l'a priori s'estompe — la vraisemblance devient dominante. Le fréquentiste semble « objectif » mais les choix d'alpha, puissance et MDE sont aussi subjectifs.

2. Coût computationnel : Le test bayésien nécessite une mise à jour a posteriori quotidienne + échantillonnage Monte-Carlo. Un test-t fréquentiste est un calcul unique. Mais les outils modernes (pymc, Stan, Google Optimize en mode bayésien) l'automatisent. Prélever 10 000 échantillons prend des millisecondes, ce n'est pas un problème.

3. Conformité réglementaire : Pour les tests de médicaments nécessitant l'approbation de la FDA, la méthode fréquentiste est le standard. En marketing numérique, aucune restriction de ce type. Les outils de test A/B (Optimizely, VWO, AB Tasty) proposent des options bayésiennes.

4. Confusion avec les bandits multi-bras : Les tests bayésiens et les algorithmes de bandit (Thompson sampling) sont confondus. Le bandit équilibre exploration-exploitation, alloue plus de trafic à la variante gagnante au fil du test. Le test A/B bayésien utilise un fractionnement fixe et la a posteriori pour décider. Ce sont des cas d'usage différents — bandit pour campagnes à vélocité élevée, bayésien pour changements de produits à long cycle.

Scénario Réel : Test Créatif Meta Ads

Vous testez 3 créatives sur Meta Ads (A, B, C). Budget quotidien $500, CPA cible $25. La méthode fréquentiste veut 1 000 conversions par créative (puissance 80 %, MDE 15 %). Vous recevez 60 conversions par jour, donc 50 jours d'attente. Mais au jour 10, le CPA de la variante C monte à $40, c'est clairement mauvais.

L'approche bayésienne fonctionne comme ceci :

Chaque jour, collectez spend et conversions pour chaque créative
Calculez la distribution a posteriori du CPA (utiliser vraisemblance Gamma car CPA est continu positif)
Calculez P(CPA_C > $30) — résultat 92 %
Au jour 10, pausez C, allouez le budget à A et B

Au jour 20, P(CPA_A < CPA_B) = 96 %. Déclarez A gagnant, décision en 20 jours au lieu de 30. $5 000 d'économies budgétaires + 10 jours de campagne avec un meilleur CPA.

Ce type de prise de décision dynamique est critique à l'ère post-iOS14. La perte de signal dégrade la fiabilité du test — la a posteriori bayésienne montre explicitement l'incertitude. Vous pouvez dire « les données insuffisent, a posteriori trop large », ce que la p-valeur fréquentiste ne communique pas.

Le test A/B bayésien résout les problèmes de taille d'échantillon rigide et d'interdiction de « peeking » en fréquentiste. Avec les tests séquentiels, vous mesurez chaque jour le pouvoir de décision et arrêtez dès que vous atteindrez un niveau de confiance suffisant. Le choix de l'a priori introduit de la subjectivité, mais un a priori non informatif + beaucoup de données atténuent ce problème. En performance marketing, si vous cherchez flexibilité de campagne, efficacité budgétaire et vitesse, le cadre bayésien est l'approche juste. Votre infrastructure de test doit être construite sur une mise à jour dynamique de l'a posteriori, pas sur un calcul statique de N.