Bayesian Price Optimization im Mobile F2P

In der Mobile-F2P-Ökonomie wird Preisoptimierung noch immer nach dem Motto „verschieben wir das meistverkaufte Paket von $4,99 auf $5,99" durchgeführt. 2026 optimieren Studios, die Apple Search Ads-Gebote mit Millisekunden-Präzision feinabstimmen, ihre IAP-Leitern noch über Wochen mit klassischen A/B-Tests. Bayesian Estimation transformiert Preistests – nicht um einzelne Prozentpunkte zu erfassen, sondern um schneller zu entscheiden und segment-spezifische Preisleitern aufzubauen. Das Ergebnis: LTV-Steigerungen von durchschnittlich 12–18 % pro Test. In diesem Artikel erklären wir, wie Posterior-Updates funktionieren, wie man Segmentierung integriert und warum das Bayesian Framework im Mobile-Context unverzichtbar ist.

Warum klassische A/B-Preistests zu langsam sind

Ein frequentist A/B-Test für eine Preisänderung benötigt typischerweise 5.000–10.000 Transaktionen, um statistische Signifikanz zu erreichen (p=0,05, Power=0,80). Ein mittelgroßes F2P-Spiel mit täglich 200–300 zahlenden Nutzern bedeutet 25–30 Tage Wartezeit pro Variante. In dieser Zeit aktualisiert sich der Season Pass, der Event-Kalender ändert sich, die Konkurrenz veröffentlicht ein Update – die Kontrolle über die Test-Kohorten wird unmöglich.

Ein zweites Problem: binäre Entscheidungslogik. Entweder „Preiserhöhung ist nicht signifikant, zurück zum Ausgangswert" oder „signifikant, ausrollen". Mobile Nutzer haben aber völlig unterschiedliche Price Elasticity. Während ein organischer iOS-Nutzer bei $9,99 konvertiert, könnte ein Android-Paid-Install 40 % empfindlicher sein. Ein einzelner p-Wert zwingt alle Segmente in die gleiche Entscheidung.

Ein drittes Problem: kein sauberes Early Stopping. Der frequentist Test muss bis zur erreichter Sample Size durchlaufen – selbst wenn die Posterior Confidence nach 2 Wochen bei 92 % liegt, wird das Test weitere 4 Wochen gezogen. Diese Verzögerung kostet den LTV-Gewinn aus der Preisänderung bereits in den noch laufenden Live-Ops-Zeitplan hinein.

Wie Posterior-Estimation im Bayesian Framework funktioniert

Der Bayesian Ansatz sieht Conversion Rate (oder Average Revenue Per Paying User) nicht als feste Zahl, sondern als Wahrscheinlichkeitsverteilung. Vor dem Test gibt es einen Prior: die Verteilung der CVR aus dem alten Preis. Mit jeder neuen Transaktion wird die Posterior Distribution über Bayes' Theorem aktualisiert:

P(θ | data) ∝ P(data | θ) × P(θ)

Hier ist θ = wahre Conversion Rate (oder ARPPU), data = beobachtete Purchase Events. Als Prior wird typischerweise Beta(α, β) verwendet (geeignet für binäre IAP-Flows). Nach jedem Tag werden α und β mit den neuen Transaktionszahlen aktualisiert.

Ein praktisches Beispiel: Das Starter Pack wird von $4,99 auf $5,99 erhöht. Prior: CVR ~2,8 % (Beta(280, 9720) – abgeleitet aus 10.000 Impressionen). Nach 3 Tagen hat die $5,99-Variante 600 Impressionen und 14 Konversionen erhalten. Posterior ist jetzt Beta(294, 10306). Das Konfidenzintervall verengt sich, die durchschnittliche CVR wird auf 2,78 % aktualisiert. Nach 10 Tagen: 2.000 Impressionen, 48 Konversionen – Posterior Beta(328, 11672), CVR 2,74 %. Während ein frequentist Test noch „unzureichende Sample" sagt, antwortet der Bayesian Ansatz: „Die Wahrscheinlichkeit, dass die neue Preis-CVR unter der alten liegt, beträgt 87 % – aber kompensiert der ARPPU-Anstieg das?"

Decision Metric: Expected Revenue Gain

CVR-Rückgang allein ist keine Entscheidungsgrundlage. Im Bayesian Framework ist die Kernmetrik Expected Revenue Per Impression (ERPI):

ERPI = E[CVR × Price]

Für beide Varianten entnimmst du der Posterior Distribution Stichproben via Monte Carlo (10.000 Iterationen). In jeder Iteration vergleichst du CVR_neu × $5,99 mit CVR_alt × $4,99. Wenn in mehr als 85 % der Fälle der neue Preis vorn liegt (P(ERPI_neu > ERPI_alt) > 0,85), lautet die Entscheidung „skalieren". Liegt sie unter 15 %, gehst du zurück.

Dieser Ansatz ermöglicht Entscheidungen in 10–12 Tagen mit 1.500–2.000 Transaktionen – 60 % schneller als klassisches A/B-Testing über 4–5 Wochen.

Segment-Spezifische Preisleitern

Die echte Stärke von Bayesian Estimation zeigt sich, wenn man sie mit Multi-Armed-Bandit-Logik kombiniert. Für jedes Segment wird eine separate Posterior geführt, jeden Tag entscheidet Thompson Sampling dynamisch, welche Preisvariante Traffic erhält.

Ein konkretes Szenario: 4 Segmente – (1) organisch iOS, (2) bezahlt iOS, (3) organisch Android, (4) bezahlt Android. Du testest 3 Preise für das Starter Pack: $4,99, $5,99, $6,99. Insgesamt 12 Posterior Distributionen (4 Segmente × 3 Preise).

Erste Woche: Jedes Segment erhält alle 3 Varianten gleichmäßig (Exploration). Ab Woche 2: Thompson Sampling übernimmt. Bei jeder Impression werden aus den 3 Posteriors für dieses Segment Stichproben gezogen; die Variante mit höchster ERPI-Stichprobe erhält den Traffic. Wenn iOS-organisch $6,99 schnell in Führung geht, sehen über 70 % der Nutzer in diesem Segment $6,99. Wenn iOS-bezahlt $5,99 optimal zeigt, dorthin fließt Traffic.

Segment	Optimaler Preis (Tag 14)	Posterior Confidence	Tägliche Verteilung
Organisch iOS	$6,99	91 %	78 %
Bezahlt iOS	$5,99	88 %	74 %
Organisch Android	$5,99	85 %	71 %
Bezahlt Android	$4,99	82 %	69 %

Diese Struktur erfasst Segment-Level-Preiselastizität und liefert 15–20 % mehr Revenue als ein global einheitlicher Preis. Wenn du ein neues Segment hinzufügst (z. B. „Tier-2 GEO paid user"), definierst du einen Prior, und der Multi-Armed Bandit startet automatisch Tests für diesen Arm.

Early-Decision-Mechanik und Regret Minimization

Der kritische Vorteil des Bayesian Framework im Mobile-Context ist sequential decision-making. Jeden Tag wird die Posterior aktualisiert und gegen die Entscheidungsregel geprüft. Wenn P(ERPI_neu > ERPI_alt) > 0,90, sagst du: „Wir sind sicher genug – bündle den verbleibenden Traffic zur Gewinnervariante." Während frequentist-Tests auf die erreichter Sample Size warten, trifft Bayesian am Tag 7 eine Entscheidung und skaliert die gewinnende Preis die restlichen 3 Wochen.

Frühe Entscheidungen minimieren cumulative regret: Regret = „Was hätten wir verdient, wenn wir den optimalen Preis von Tag 1 gekannt hätten" − „Was haben wir während des Tests verdient". Im klassischen A/B-Test fließt 30 Tage lang die Hälfte des Traffic zur suboptimalen Variante; im Bayesian Thompson Sampling ab Tag 10 80 % des Traffic zur Gewinnervariante. Das Regret-Integral sinkt um 60–70 %.

Konkret über einen 2–3-Wochen-Testzyklus:

Klassisches A/B: 21 Tage × 50 % suboptimaler Traffic = 10,5 Tage äquivalenter Verlust
Bayesian Bandit: 7 Tage Exploration + 14 Tage 15 % suboptimal = 2,1 Tage äquivalenter Verlust

Dieser Unterschied wird bei hohem DAU zu täglichen fünfstelligen Revenue-Unterschieden.

Trade-offs und Pitfalls

Bayesian Price Optimization ist nicht risikofrei. Die Prior-Wahl ist kritisch: Ein zu enger Prior (z. B. Beta(5000, 195000) – „CVR liegt definitiv bei 2,5 %") aktualisiert die Belief nur langsam mit neuen Daten. Ein zu breiter Prior (Beta(1, 1) – uniform) führt zu zu langer Exploration. Ein solider Start: Die letzten 30 Tage Transaktionsdaten aus dem alten Preis via Method of Moments in Beta-Parameter konvertieren.

Ein zweiter Pitfall: Mit steigenden Segmenten wird die Multi-Armed-Bandit langsamer. 4 Segmente × 3 Preise = 12 Arme; wenn jeder Arm 200–300 Samples braucht, sind 2.400–3.600 Transaktionen nötig – bei täglich 300 zahlenden Nutzern 10–12 Tage. Wenn man auf 8 Segmente × 4 Preise (32 Arme) hochskaliert, kann Convergence 4–5 Wochen dauern. Lösung: Hierarchical Bayes nutzen, um Informationen zwischen Segmenten zu teilen (z. B. Prior: „Tier-1-GEOs zeigen ähnliche Elastizität").

Ein dritter Punkt: Die IAP-Leiter wird nicht isoliert getestet, sondern läuft parallel zu Live-Ops-Events. Während eines Events ändert sich die Price Elasticity (Urgency-Effekt). Bayesian Posterior sollten an Event-Tagen schneller aktualisiert werden, aber nach Event-Ende sollte man den Prior nicht reset-ten. Sonst „trägt" der Befund „$6,99 optimal während Event" in normale Tage, was zu suboptimalen Entscheidungen führt.

Letzte Überlegung: Bayesian gibt keine frequentist-Garantien. Wenn man sagt „P(θ > x) = 0,95", ist das ein 95%-Credible Interval, nicht ein 95%-Confidence Interval. Falls Regulatoren oder legale Anforderungen (z. B. Loot-Box-Regulierung) frequentist Metriken fordern, solltest du Bayesian-Ergebnisse mit Bootstrap absichern.

Segment-Spezifische Leitern im Messsystem von Roibase verankern

Für Mobile Gaming Studios ist Price Optimization kein isolierter Test, sondern eng mit App Store Optimization und dem gesamten Attribution-Pipeline verknüpft. Bayesian Posteriors werden nicht nur für Preisentscheidungen, sondern auch bei ASO-Creative-Tests genutzt: Welche Custom Product Page bringt welchem Segment höhere IPM, welche IAP-Leiter passt zu diesem Segment – wenn man beide Datenströme kombiniert, wird die Kohorten-LTV-Projektion 30 % genauer.

Das Bayesian Framework in die Messinfrastruktur zu integrieren, ermöglicht schnellere Entscheidungen und segment-spezifische Preisleitern. 2026 gewinnen Mobile-F2P-Studios, die Preistests von „monatliche Optimierung" zu einem System weiterentwickeln, das täglich Posterior aktualisiert, Thompson Sampling für Traffic-Verteilung nutzt und Regret minimiert.