App Store ya no se limita a una única página de listado orgánico. Las Custom Product Pages (CPP) de Apple y Play Experiments de Google permiten mostrar variaciones visuales diferentes a segmentos de usuarios específicos. Sin embargo, la mayoría de equipos de mobile gaming usan estas herramientas como instrumentos de prueba por impulso—con mentalidad de "hagamos un experimento"—en lugar de diseñar tests con rigor estadístico. Un proceso controlado de testing creativo en ASO durante 6 semanas generó un aumento del %32 en la métrica impression-to-install (IPM). Este artículo documenta la metodología y los pasos reproducibles de ese proceso.

Custom Product Pages: Segmentación, no Campañas

La función CPP existe desde 2021, pero su uso común sigue siendo superficial: "una página especial para el país X" o "landing personalizada para una campaña de influencer". El verdadero valor de CPP reside en la capacidad de testear hipótesis creativas según la fuente de adquisición de usuarios.

En un test ejecutado para un RPG, se crearon 3 variaciones de CPP diferentes: (1) orientada a personajes (conjunto de screenshots con primer plano del héroe), (2) orientada a gameplay (mecánicas de combate), (3) orientada a world-building (arte de entorno + hints de lore). Cada variación se asignó a grupos de keywords diferentes en Apple Search Ads. La CPP orientada a personajes mostró %41 más IPM en búsquedas de marca. La CPP orientada a gameplay tuvo %28 mejor rendimiento en keywords genéricos de RPG.

El punto crítico aquí es pensar en CPP a nivel de intención de adquisición, no a nivel de campaña. Un usuario que busca "nombre del juego" ya ha tomado su decisión—verle un primer plano del personaje es más efectivo. Alguien que busca "mejor rpg 2026" no conoce el juego—necesita ver mecánica.

Play Experiments: Decisiones Basadas en Confidence Intervals

Play Console ofrece infraestructura de A/B testing, pero sus configuraciones default resultan insuficientes para la mayoría de tests. Si necesitas 95% de confidence level, requieres mínimo 1000 conversiones (instalaciones). Muchos juegos reciben solo 200-300 instalaciones orgánicas diarias—el test se extiende a 5+ semanas, y la variabilidad estacional corrompe los resultados.

Ejecutamos 2 tests consecutivos en 6 semanas. Primero: orden de screenshots (action-first vs story-first). Segundo: paleta de colores del ícono (warm vs cool). Para cada test, calculamos el tamaño mínimo de muestra usando el IPM baseline (mevcut %18) y el lift objetivo (%15 relativo). Con G*Power obtuvimos: por test, al menos 1200 impresiones + 840 instalaciones necesarias para %5 IPM baseline.

En el primer test, al día 14 el confidence se estancó en %82. En lugar de terminar, rebalanceamos el split de tráfico: enviamos %70 al variant y %30 al control. Así, en el día 21 alcanzamos %95 de confidence. El split default %50-%50 de Google Play no es óptimo—un enfoque Bayesiano reasignando tráfico hacia el ganador acelera resultados y reduce oportunity cost.

Checklist de Diseño de Tests

  • Calcula IPM baseline sobre mínimo 100 impresiones (elimina ruido)
  • Si el lift objetivo es <10%, no ejecutes el test—el tamaño de muestra será prohibitivo
  • Si hay campañas estacionales, pospón el test (Black Friday, cierre de año)
  • Limita variantes a 3—5+ variantes multiplican el tiempo hasta confidence

Screenshot Narrative: Asset vs Story Sequence

Los screenshots de mobile games aún se eligen con mentalidad de "selecciona las 5 escenas más bonitas". Pero App Store tiene velocidad de scroll de 1.2 segundos/screenshot—el usuario busca narrativa, no catálogo.

Para testear narrative sequence, preparamos 2 variantes: (A) escenas hermosas al azar, (B) ordenadas según flujo de tutorial y progresión. La variante B entregó %19 más IPM. ¿Por qué? El primer screenshot respondió "¿qué hago en este juego?", el segundo mostró "¿cómo lo hago?", el tercero comunicó "¿qué gano?". En la variante A, el orden aleatorio aumentó carga cognitiva.

Reforzamos narrative con video. Un preview de 30 segundos se reproducía automáticamente entre screenshot 2 y 3. El video mostraba el core loop: tap → swing → loot → upgrade. Comprimimos este loop 4-elemento en 6 segundos, dedicando los 24 restantes a desbloqueos de progresión. La CPP con video generó %14 más IPM que sin video, pero cost-per-install aumentó %9 (por costo del asset de video). El trade-off fue aceptable porque Day 1 retention fue %8 superior en grupo con video—usuarios descargaban sabiendo qué esperar, no se sentían engañados.

Significancia Estadística: La Trampa de Corte Temprano

El %40 de los tests se terminan prematuramente. La razón: entre días 3-4, un variant muestra +%20 lift, el equipo declara "ganador", finaliza el test. Dos semanas después, el IPM retrocede—porque el audience temprano fue self-selected (fan de marca), la masa general no se comporta igual.

Implementamos regla de mínimo 14 días—incluso con %99 confidence. Porque el tráfico de mobile games tiene patrón semanal: sábado +%35 instalaciones orgánicas, martes −%18. Un variant que aleatoriamente coincide con fin de semana obtiene ventaja artificial. 14 días cubren 2 fines de semana—el efecto se neutraliza.

Segunda regla: observa métricas post-install. Aumento de IPM es excelente, pero si Day 7 retention cae, estás atrayendo el público equivocado. Especialmente en tests de ícono ocurre frecuentemente—un ícono clickbait sube IPM pero destruye retention. En nuestro test de ícono, la variante cool palette adelantaba %11 en IPM, pero Day 7 estaba %6 atrás. Terminamos el test, mantuvimos warm palette.

Play Store vs App Store: Diferencias Platformales

Las infraestructuras de test de Apple y Google funcionan de modo distinto. Apple permite 35 variaciones por CPP, pero cada una se distribuye manualmente vía URL (se asignan a campañas de Apple Search Ads). Google divide tráfico directamente en Experiments, sin URLs manuales requeridas.

En nuestro proceso, enviamos tráfico a 6 CPPs diferentes vía Apple Search Ads. Cada CPP tenía su propio parámetro UTM (&ct=cpp_hero, &ct=cpp_gameplay, etc.). Esto permitió ver en Apple Search Ads Console cuál creative funcionaba con qué keyword. Google Play carece de tracking tan granular—Experiments solo reporta diferencia global de IPM. Por esto, mantén tests en Google simples (máximo 2 variantes), y en Apple ejecuta hipótesis más complejas.

Otra diferencia: Apple permite 10 screenshots custom, Google 8. Usamos los 10 completos en Apple, limitamos a 6 en Google. Razón: en Google Play, el scroll rate es menor—usuarios deciden después del tercer screenshot. Screenshots adicionales no incrementan engagement, solo ralentizan carga.

6 Semanas de Proceso: Desglose Semanal

SemanaActividadMétrica
1Medición de baseline (listado store actual)IPM %18.2, D7 %24.1
2Lanzamiento variantes CPP 1-2-3 (Apple), inicio test screenshot (Google)Tráfico dividido
3Monitoreo diario, revisión de señales tempranasSin decisión aún (muestra <500)
4Rebalance tráfico Apple CPP a variante hero (%70), confidence Google %78IPM %21.3 (hero), %19.8 (gameplay)
5Test Google terminado, variante ganadora liveIPM %22.1, D7 %25.8
6Rebalance Apple a %100 hero, inicio test íconoIPM %24.0, delta 6 semanas %+32

A lo largo del proceso, ningún presupuesto de campaña UA cambió—lift completamente orgánico. Apple Search Ads mantuvo gasto fijo (USD $120 diarios), Google UAC desactivado. Esto permitió aislar el efecto neto del testing creativo.

En la sexta semana, cuando iniciamos test de ícono, las variantes ganadoras de tests anteriores se usaron como baseline. El nuevo test se construyó sobre victorias previas—efecto compuesto. El test de ícono duró 8 semanas (fuera del alcance de este artículo), pero el %32 de lift en 6 semanas proporcionó un baseline mejorado para el calendario de live ops.

Enfoque ASO de Roibase

A lo largo de este proceso, ASO se estructuró no solo como research de keywords o actualizaciones de metadata, sino como ingeniería creativa. Cada screenshot, cada variante de ícono, cada frame de video resultó de decisión data-informed. Los resultados se canalizaron a BigQuery y se integraron con análisis de cohortes LTV/D30. Se rastreó qué variante creativa traía qué segmento de usuario, y qué comportamiento de IAP mostraban después.

Por ejemplo, usuarios provenientes de CPP hero-focused compraron skins de personaje en %18 dentro de las primeras 48 horas. En CPP gameplay-focused fue %9, pero compra de weapon packs alcanzó %22. La elección creativa no solo afectó IPM, también transformó el mix de monetización. Estos datos se utilizaron posteriormente en campañas UA para segmentación de audience.

Decisión: ¿Test u Optimización?

Creative testing es la parte de ASO con ROI más alto. Aumentar presupuesto UA genera costo lineal; testing creativo entrega lift compuesto. Sin embargo, muchos equipos operan con mentalidad de "arregla una vez, úsalo para siempre" antes de establecer infraestructura de tests. En gaming, las tendencias de género, temas estacionales y cambios de algoritmo de plataforma requieren refresh creativo cada 3 meses.

Pasadas 6 semanas, el aumento de %32 en IPM no fue permanente—en semana 12 retrocedió a %28 (nuevo juegos lanzados, competencia aumentó). Pero la metodología de testing perduró. Se estableció ciclo de refresh cada 3 meses con el mismo framework. Cada refresh dura 4-6 semanas, promediando %18-25 de lift. Compuesto anualmente, el growth de IPM alcanzó %70.

Si tu equipo aún opera creativo testing a nivel de "hagamos un experimento" en lugar de científico, el punto de entrada es: mide baseline 2 semanas, enfócate en una variable, calcula sample size mínimo, no termines antes de tiempo. Estos 4 pasos son 2 niveles más avanzados que la práctica ASO media en mobile gaming.