Nel mobile gaming, il 70% del traffico organico proviene dal listing dello store. Aumentare il conversion rate del listing riduce il costo di acquisizione e alza il ROAS delle campagne paid. Custom Product Pages (CPP) e Play Experiments rappresentano il lato ingegneristico di questa ottimizzazione — test invece di supposizioni, significance statistica invece di opinioni. In un ciclo di test di 6 settimane è possibile raggiungere un aumento di +%32 install-per-mille (IPM), ma questo richiede di collegare l'ipotesi creativa all'architettura dati.
Custom Product Pages: Segmentare il Listing dello Store
La funzione Custom Product Pages (CPP) dell'Apple App Store consente di proporre diverse varianti di pagina store per una singola app. Ogni variante può avere una combinazione diversa di icon, serie di screenshot e video preview. L'equivalente su Google Play è Play Store Listing Experiments — stessa logica, terminologia diversa.
La forza del CPP risiede nella segmentazione. Supponiamo di sviluppare un idle RPG: potete creare una variante con messaggio "relax & collect" per i casual player e una variante con enfasi "competitive leaderboard" per i grinder hardcore. Potete selezionare questi variant'i a livello di campagna su Apple Search Ads e offrire esperienze di landing diverse ai diversi gruppi di keyword.
La significance statistica è qui critica. Apple riporta i risultati dei test CPP con un intervallo di confidenza del 90%. In altre parole, quando dice "la variante B converte il %25 meglio", intende: "la probabilità che questa differenza sia casuale è inferiore al 10%". Se la dimensione campionaria non è sufficiente (generalmente <1000 impression per variante), il risultato non è affidabile. Un periodo di test di 6 settimane è la durata minima necessaria per superare questo threshold nei mercati Tier-1 per un gioco di medie dimensioni.
Framework di Test: Ipotesi → Variante → Metrica
Per rendere il CPP testing vincente, dovete prima stabilire un'ipotesi creativa. "I colori più luminosi funzionano meglio" non è un'ipotesi — è un'opinione. Un'ipotesi valida è: "Gli utenti Tier-1 mostrano un IPM del +%15 su screenshot che enfatizzano il character progression, perché nel nostro dataset di Search Ads la keyword 'level up' ha il CTR più alto all'8,3%". Sulla base di questa ipotesi, sviluppate 3 varianti:
- Control: Listing default attuale
- Variante A: Character progression + ordinamento degli screenshot focalizzato sul sistema di loot
- Variante B: Screenshot focalizzati su PvP + leaderboard
Aprite una campagna Apple Search Ads separata per ogni variante (oppure collegate gli ID degli esperimenti di listing dello store in Google App Campaigns). Nel corso di 6 settimane, suddividete il traffico: %40 control, %30 Variante A, %30 Variante B. Questa divisione mantiene la stabilità baseline del control fornendo al contempo una dimensione campionaria sufficiente per le nuove varianti.
Significance Statistica: Dimensione Campionaria e Durata del Test
Nel testing di ASO per mobile, l'errore più comune è terminare il test anticipatamente. Se la Variante A converte il %18 meglio nelle prime 1000 impression, viene immediatamente dichiarata vincitrice. Ma queste 1000 impression potrebbero coincidere con un fine settimana casuale, un evento stagionale o il fuso orario di una specifica geo.
Il calcolo della significance statistica inizia con questa formula:
n = (Z^2 * p * (1-p)) / E^2
n = dimensione campionaria richiesta
Z = livello di confidenza (1.645 per il 90%)
p = conversion rate atteso
E = margine di errore (generalmente 0.05)
Se l'IPM attuale è del %3,2 (p=0,032), per il 90% di confidenza con un margine di errore del %5, sono necessarie circa 1900 impression per variante. Per un gioco con 500 impression organiche giornaliere, questo rappresenta 4 giorni di test. Ma nel mondo reale il traffico fluttua: può aumentare del %40 nei fine settimana, vedere picchi nei giorni in cui siete in evidenza. Per questo motivo si consiglia una durata minima del test di 4 settimane — questo periodo copre almeno 2 fine settimana, anomalie di metà mese e una miscela di giorni normali e anomali.
In Play Experiments, Google esegue automaticamente il calcolo della dimensione campionaria e vi notifica quando il test è "statisticamente significativo". Ma questo threshold dipende dall'entità del miglioramento del conversion rate. Rilevare un miglioramento del %5 richiede molti più campioni che rilevare un miglioramento del %25. Un ciclo di 6 settimane è un range affidabile per dimensioni di effetto medio-grandi (>%15 di miglioramento).
Deployment della Variante Vincente: Iterazione e Rollout
Quando i risultati del test arrivano, ci sono due possibilità: esiste una vincitrice chiara (miglioramento del %20+ con confidenza del %90%), oppure i risultati sono inconcludenti (la differenza tra varianti rientra nel margine di errore).
Nello scenario vincente, la strategia di deployment deve essere:
| Fase | Tempistica | Azione |
|---|---|---|
| 1. Validazione | 1 settimana | Aprite la variante vincente al %100 del traffico, monitorate l'IPM baseline |
| 2. Sincronizzazione paid | 3 giorni | Rendete il nuovo variant il listing predefinito nelle campagne Apple Search Ads e UAC |
| 3. Secondary metrics | 2 settimane | Verificate regressioni in D1 retention, D7 ARPU, churn rate |
Il punto critico: un aumento di IPM non è sempre netto positivo. Se la variante vincente utilizza un creative axis che rappresenta male il core loop del gioco, la qualità dell'install diminuisce. Ad esempio, un listing incentrato su "puzzle" attrae casual user, ma se il gioco è effettivamente un hardcore idle mechanic, la D1 retention scende dal %22 al %18. In questo caso, anche con IPM +%32, l'impatto netto su LTV è negativo.
Per questo motivo, il monitoraggio dei "secondary metrics" nelle 2 settimane post-deployment è obbligatorio. In questa finestra, eseguite un'analisi della retention basata su cohort: quale è la D7 retention degli utenti dal nuovo listing rispetto alle cohort precedenti? C'è una caduta anormale dell'ARPU? Il vostro modello di churn (ad esempio Cox proportional hazards) produce diversi coefficient per questa nuova cohort?
Ciclo di Iterazione: Creative Backlog e A/A Test
Il testing creativo di ASO non è un'attività una tantum, ma un ciclo di iterazione continua. Dopo che la variante vincente viene deployata, viene creato un backlog creativo per nuove ipotesi. Questo backlog è alimentato da tre fonti:
- User research: App review, ticket di supporto, sondaggi in-game (ad es., "Perché hai scaricato il gioco?")
- Competitive intelligence: Quali creative angle utilizzano i leader di categoria, quale gerarchia di messaggi
- Performance data: Quali keyword forniscono alto CVR ma bassa impressione share (opportunità di espansione)
Ogni 6-8 settimane inizia un nuovo ciclo di test. Ma in ogni ciclo, dovete eseguire anche un A/A test: si confrontano due varianti identiche, non ci si aspetta alcuna differenza nei risultati. Se il test A/A mostra una deviazione del >%10, c'è un problema nel meccanismo di suddivisione del traffico o nel vostro setup di tracking. In questo caso non potete fidarvi dei risultati — dovete prima correggere l'integrità della misurazione.
Nella App Store Optimization di Roibase, integriamo il CPP testing nella pipeline di attribution: URL postback separati per ogni variante, modeling LTV a livello di cohort, predizione del churn. In questo modo, il numero "IPM +%32" viene tradotto in un outcome di business come "net LTV +%18".
Dinamiche di Mercato Tier-1 vs Emerging
Infine, la strategia di testing creativo deve essere geo-specifica. Nei mercati Tier-1 (US, UK, JP, KR), gli utenti esaminano il listing dello store in dettaglio — vedono tutti i 5 screenshot, guardano il video preview, si preoccupano dello score di review. Per questo motivo la gerarchia creativa è importante: i primi 2 screenshot devono contenere il messaggio più critico, il video deve agganciarvi nei primi 3 secondi.
Nei mercati emergenti (LATAM, SEA, MENA), il costo dei dati è elevato, quindi gli utenti non scaricano il video di anteprima e scorrono rapidamente gli screenshot. Qui l'impatto visivo dell'icon e del primo screenshot pesa di più. Inoltre, se includete questi geo nello stesso test dei Tier-1, i risultati possono essere distorti — perché i pattern di comportamento dell'utente sono diversi.
Raccomandazione: Eseguite test separati per ogni cluster geo, oppure conducete il test solo su Tier-1 e adattate l'insight vincente (ad es., "l'enfasi sulla progressione aumenta la conversion") ai mercati emergenti (con meno testo, visual più audaci).
Il successo nel creative testing dipende dalla disciplina delle ipotesi e dal rigore della misurazione. Un aumento di IPM fornisce outcome positivo netto solo se valutato insieme ai secondary metrics (retention, LTV, churn). Un ciclo di iterazione di 6 settimane è la durata minima che rende possibile un'analisi di questa profondità. I test che non superano il threshold di significance statistica devono essere ripetuti, i risultati inconcludenti devono essere scartati. L'ASO è la versione dell'app store dell'engineering per la crescita — test invece di supposizioni, coefficient invece di opinioni.