ASO Creative Testing: PPO с +32% IPM за 6 недель

Наиболее игнорируемая область роста мобильных игр — визуальные элементы магазина приложений. Большинство студий загружают иконку и скриншоты один раз и забывают о них. Между тем, Apple Custom Product Pages (CPP) и Google Play Experiments (PPE) позволяют A/B тестировать и не терять потенциал установок на впечатление (IPM) каждую неделю. С 2025 года игры, использующие CPP на tier-1 рынках, видят средний прирост +22% IPM. Но если методология тестирования неправильная, цифры бессмысленны. В этой статье речь идёт о правильной методике.

Custom Product Pages: что это и почему это критично сейчас

Apple открыла функцию CPP в 2021 году, Google Play добавила полный экспериментальный контроль в 2022-м. До этого был период "один набор визуальных элементов + небольшие тесты". Теперь вы можете предоставлять разные творческие наборы для каждого сегмента кампании: если в UA используется anime-стиль, в магазине тоже anime; если акцент на боевой механике, скриншоты показывают combat.

Различие простое: согласованность сообщения. Пользователь видит героя в TikTok, кликает, а в App Store видит скриншот про фермерскую механику — конверсия падает. CPP закрывает эту брешь. Но настоящая сила заключается в цикле тестирования: вы запускаете три разных визуальных направления и через две недели принимаете решение на основе данных.

Технические детали: CPP'ы независимы от вашей стандартной страницы продукта; вы можете создать до 35 версий (лимит Apple). На Google разнообразие экспериментов динамично, но практически 10-12 активных экспериментов достаточно. Каждый связан с отдельным ID кампании — измерение ведётся через SKAdNetwork (SKAN) или Firebase Attribution.

Play Experiments и iOS-эквивалент: архитектура тестирования

Google Play Experiments позволяет тестировать воронку конверсии в магазине: когда пользователь открывает ваше приложение, 50% видит контроль, 50% — вариант. На iOS такой функции нет, поэтому вы используете CPP с маршрутизацией на уровне кампании. То есть разделение тестов происходит не в магазине, а на уровне медиабаинга.

Типичная структура тестирования:

Google (разделение на уровне магазина):

Baseline (текущий набор визуальных элементов)
Variant A (новый порядок скриншотов)
Variant B (другой персонаж-герой)

Трафик распределяется автоматически; Play Console выдаёт отчёт о статистической значимости через 14 дней.

Apple (разделение на уровне кампании):

Кампания 1 → стандартная страница продукта
Кампания 2 → CPP Variant A
Кампания 3 → CPP Variant B

На Apple Search Ads или в paid social разделение вручную. Для каждой кампании вы собираете данные об установках и IPM из SKAN postback'ов. Значимость рассчитываете самостоятельно (у Apple нет UI для тестов).

Большинство студий ошибаются здесь: принимают решение на основе недостаточной выборки. С 500 установками говорят "вариант выиграл" и останавливают итерацию. На самом деле статистическая мощность даже не достигает 60%. Минимум — 2000 впечатлений/вариант + интервал доверия 95%.

Статистическая значимость и расчёт прироста

Play Console выдаёт отчёт о значимости, но математика позади него простая: пропорциональный z-тест. Проверяет, является ли разница в rate конверсии между двумя группами случайной или нет.

Формула:

z = (p1 - p2) / sqrt(p * (1-p) * (1/n1 + 1/n2))
p = (x1 + x2) / (n1 + n2)

p1, p2: rate конверсии варианта и контроля
n1, n2: количество впечатлений
x1, x2: количество установок

Если z-score > 1.96, то с доверием 95% есть значимая разница.

Пример:

Контроль: 10 000 впечатлений, 800 установок → 8.0% CVR
Вариант: 10 000 впечатлений, 1120 установок → 11.2% CVR
Прирост: +40% (относительный), +3.2pp (абсолютный)
Z-score: 8.4 → p < 0.001 (полностью значимо)

Но важно: при малом размере выборки даже высокий прирост может быть незначимым. Если с 500 впечатлений видите +15% прироста, не радуйтесь — доверительный интервал 95% может быть от -5% до +35%.

Минимальный расчёт выборки (power analysis): Baseline CVR 8%, MDE (минимальный детектируемый эффект) 20% прироста (то есть 9.6% CVR) и целевая мощность 80% требуют ~4500 впечатлений на группу. Ниже этого не решайте.

Bayesian vs Frequentist

Play Console использует frequentist подход. Альтернатива — Bayesian A/B тест: непрерывное обновление апостериорной вероятности, выводы типа "вариант лучше с вероятностью 87%". На малых выборках Bayesian помогает принять решение раньше, но в production frequentist обычно безопаснее. Приоритет — контроль Type-I ошибки, а не минимизацияожидаемого сожаления.

Методология креативной итерации: от первого теста к масштабированию

Большинство студий используют CPP так: маркетинг-команда готовит три визуальных элемента, запускает, через неделю смотрит и говорит "средний выглядит лучше" — и всё. Неправильно.

Правильный цикл итерации:

Формирование гипотезы (неделя 0):
- Возьмите топ-перформер UA креатива. Какой угол даёт высокий ITR? (персонаж vs механика vs награда)
- Создайте 2-3 варианта, которые перенесут этот угол на витрину магазина. Контроль = текущий визуальный элемент.
Запуск теста (недели 1-2):
- Запустите CPP'ы с маршрутизацией на уровне кампании. Дайте каждому варианту равный трафик (ручная корректировка ставок или ротация креатива).
- Ежедневно собирайте данные об впечатлениях и установках. Не объявляйте о раннем победителе.
Проверка значимости (неделя 3):
- Запустите z-тест для каждого варианта. Если ни один не достиг значимости — увеличьте трафик на +50% или подождите ещё неделю.
- Если один вариант имеет p < 0.05 и прирост >15% — переходите к итерации.
Итерация победителя (недели 4-5):
- Сделайте победивший вариант новым baseline. Создайте два новых варианта: один радикально отличается (другая цветовая схема), другой содержит инкрементальное улучшение (переупорядочение скриншотов).
- Запустите второй раунд теста.
Масштабирование (неделя 6+):
- Если второй раунд тоже даёт победителя, применяйте этот вариант ко всем кампаниям. Старый контроль архивируйте.
- Повторите тест через три месяца — метаданные меняются, происходит деградация креатива.

Если проводить такой цикл за 6 недель, в год получится 8 тестовых раундов. Если каждый даст +10-15% прироста, совокупный эффект: (1.1)^8 = 2.14x → +114% IPM годом позже. На практике видим +30-50% (потому что не все тесты выигрывают).

Многофакторное тестирование и сегментация

Приведённый выше метод — двухгрупповой A/B. Продвинутый уровень: многофакторное тестирование (MVT). Вы одновременно тестируете три+ элемента: иконку, первый скриншот, видео-превью. Но количество комбинаций растёт экспоненциально (3 иконки × 4 скриншота × 2 видео = 24 варианта). Требование к выборке растёт в 24 раза.

Решение: факториальный дизайн. Вы измеряете основной эффект каждого элемента отдельно. Но пропускаете эффекты взаимодействия (например, иконка A + скриншот B дают особую синергию — это не увидите). Компромисс: скорость vs глубина.

Альтернатива: последовательное тестирование. Сначала иконка, потом скриншот, потом видео. На каждом шаге ищете победителя, переходите к следующему элементу. Общая продолжительность дольше (12-18 недель), но каждое решение основано на твёрдых данных.

Сегментация: вы можете разделить CPP'ы и по аудиториям. Пример: iOS 17+ видит modern UI, iOS 15- видит классический дизайн. Или geo-based: США видит superhero-тему, MENA видит fantasy. Тогда для каждого сегмента нужен отдельный тест — общий размер выборки кратен количеству сегментов. Разумный критерий сегментации: группы с разницей LTV >30%.

Roibase и инфраструктура ASO-тестирования

Сервис App Store Optimization от Roibase настраивает инфраструктуру CPP/PPE-тестирования: mapping conversion value в SKAdNetwork, интеграцию Firebase/Adjust, custom dashboard с real-time отслеживанием значимости. Кроме того, через Программу Premium Publisher мы контролируем согласованность креатива UA с визуальными элементами магазина — TikTok SparkAds должны говорить тем же визуальным языком, что и CPP.

Типичное взаимодействие: первые 2 недели — baseline measurement, недели 3-6 — первый тестовый цикл, недели 7-12 — итерация + масштабирование. Через три месяца видим +20-35% прироста IPM (на tier-1 casual/hyper-casual сегменте). На midcore/strategy приросты скромнее (+10-15%), так как цикл решения дольше, детали скриншотов критичнее.

Заключение: Creative Testing = Непрерывный процесс

ASO creative testing — это не одна кампания, а постоянный процесс. Если протестировали один раз, выбрали победителя и используете его 6 месяцев, потеряете половину прироста из-за деградации креатива. Обновление требуется раз в три месяца. Метаданные меняются, конкуренты пробуют новые стили, тренды Apple/Google эволюционируют.

Что делать сейчас: проанализируйте текущие визуальные элементы магазина. Совпадает ли сообщение скриншотов с top-performer angle из UA креативов? Если нет — разработайте первый вариант CPP с этим углом. Через две недели соберите минимум 5000 впечатлений. Запустите z-тест. Если прирост >15% и p < 0.05 — переходите к итерации. Через 6 недель посмотрите — увидите +20-30% прироста IPM.