Contenuti Generati da IA e Google: Matrice di Rischio

L'Helpful Content Update di Google non è intollerante ai contenuti generati da IA — è intollerante ai contenuti di bassa qualità. Da fine 2025 osserviamo: le pagine generate da IA si posizionano ai primi posti, ma la maggior parte si degrada entro 90 giorni. Ciò che fa la differenza non è il metodo di produzione, ma la superficie di rilevamento. Questo articolo trasforma quella superficie in una matrice — quali caratteristiche segnalano Google, quali rimangono invisibili, come misuri in production.

Superficie di Rilevamento: Cosa Vede Google

Google non può rilevare direttamente i contenuti IA — nemmeno OpenAI può dire "questo viene dal nostro modello". Ma esiste un insieme di segnali comportamentali. Ecco i 4 assi principali su cui l'attenzione algoritmica si accende:

1. Clustering temporale: Se nel tuo sito 50+ pagine vengono pubblicate in un unico giorno, sei 6 sigma lontano dal ciclo editoriale medio umano. Google lo vede come spike di domain velocity. Nel 2024, durante la terza ondata dell'Helpful Content, questo è stato il primo segnale di allarme — i siti erano indicizzati, poi deindexati entro 14-21 giorni.

2. Omogeneità strutturale: Ogni pagina ha lo stesso outline — numero di H2 pari a 5±1, 2-3 paragrafi per H2, ogni paragrafo 120±15 parole. Bassa varianza = processo generativo. Randomizzare l'outline non basta — anche lo spazio semantico dei heading deve essere vario. Se due intestazioni hanno cosine similarity superiore a 0,85, per Google derivano dallo stesso template.

3. Allucinazione di entità: L'LLM non valida il suo recupero informativo. Scrivi "secondo il rapporto SEMrush 2024", ma quel rapporto non esiste. Quando Google fa una convalida incrociata dal Knowledge Graph, rileva contraddizioni. Non è una penalità di per sé, ma segnala "fonte inaffidabile" e abbassa il punteggio di affidabilità.

4. Impronta lessicale: Claude 3.5 Sonnet ha frasi di transizione preferite: "tuttavia", "d'altro canto", "in altre parole". GPT-4o: "essenzialmente", "fondamentalmente", "in realtà". La densità di questi termini è 2,3 volte superiore alla prosa umana. Google vede questo con i modelli di n-grammi? Non lo sappiamo — ma il rischio esiste.

Metriche Misurabili in Production

Se distribuisci contenuti IA, devi monitorare questi 3 parametri su una finestra mobile di 7 giorni:

Indexation lag (in ore): Quanto tempo passa prima che l'URL che invii a Google passi a "Indexed, not submitted in sitemap" in Search Console? Per i contenuti modificati da umani, la mediana è 18-36 ore. Per i contenuti IA, se sale a 72+ ore, significa che Googlebot ha ridotto la priorità di crawl. Non è una penalità, ma segnala "questo sito si comporta come content farm".

CTR decay rate (%): La pagina ha raggiunto un CTR medio del 2,8% nei primi 14 giorni, poi è scesa all'1,4% nei 14 successivi — un decadimento del 50%. Questo è diverso dalle normali fluttuazioni stagionali. Google ha messo la pagina in posizioni alte (bias di freschezza), il comportamento dell'utente è risultato scarso (il contenuto è superficiale), la rivalutazione algoritmica è iniziata. Se noti decadimento >40% in 30+ giorni, il segnale di qualità del contenuto è negativo.

Internal link equity loss (%): Il PageRank contribuito da altri link interni alla tua pagina sta diminuendo? Per misurarlo: traccia la metrica "internal backlinks" in Ahrefs/SEMrush. Se le pagine IA vedono una perdita di link equity >30% entro 60 giorni, Google sta ricalibrato la fiducia a livello di sito.

Per integrare queste metriche in BigQuery e impostare avvisi hai bisogno dello stack Veri Analizi & Ingegneria della Fidelizzazione — GSC API + rank tracker data + internal link graph.

Tradeoff: Attribuzione vs. Allucinazione

La decisione di design più grande nella generazione di contenuti IA: usi la generation aumentata da recupero (RAG), oppure affidi al sapere parametrico?

Modello parametrico (senza RAG): Chiedi a Claude/GPT di scrivere "strategie CRO per l'e-commerce". Il modello scrive dai dati di training precedenti al 2023. Vantaggio: veloce, coerente. Svantaggio: mancano i trend 2024-2025, alto rischio di allucinazione numerica. Per Google: nessuna fonte = bassa affidabilità.

RAG (retrieval-augmented generation): Il modello recupera prima dalla tua knowledge base (PDF, Notion, web scrape), poi scrive. Vantaggio: hai attribution, hai freschezza. Svantaggio: se il recupero è errato (chunk sbagliato), la citazione è imprecisa. Per Google: la fonte che dai deve essere reale e rilevante — altrimenti peggio del parametrico.

Quale strategia presenta meno rischi dipende dal tema. Per argomenti evergreen (ad es. "HTTP status code") il parametrico è sufficiente. Per argomenti guidati da trend (ad es. "Cambiamenti dell'asta Google Ads 2025") RAG è obbligatorio. Ma se usi RAG, includi un link alla fonte accanto a ogni affermazione — citazione inline. Google segue questi link e verifica.

Contesto GEO: AI Overviews e Citation Window

Gli AI Overviews di Google (la versione production di SGE) dal mid-2025 sono attivi nel 43% delle query (dati US/EN). Per apparire in questi overview serve un'ottimizzazione diversa dalla SEO tradizionale: Generative Engine Optimization.

La differenza: In SEO il target è density della keyword + backlink. In GEO il target è: farsi recuperare dall'LLM al momento della retrieve e ottenere una citazione. Per questo:

Struttura basata su claim: Ogni paragrafo contiene una singola affermazione netta. "Il tasso di abbandono del checkout è mediamente del 69,8% (Baymard 2024)". L'LLM può estrarre l'affermazione e citare.
Densità di entità: Il numero di entità nominali nel testo (persone, luoghi, prodotti, aziende) dev'essere alto. L'LLM recupera meglio i contenuti ricchi di entità — perché la domanda dell'utente contiene entità ("Come fare CRO su Shopify").
Header semantico: I titoli H2 non devono essere formulati come domande, ma il recupero LLM deve poter mappare domanda-risposta. Invece di "Cos'è l'ottimizzazione del tasso di conversione", usa "Quali metriche determinano il tasso di conversione".

I contenuti che ottengono citazioni negli AI Overviews guadagnano +2,7 posizioni nella SERP organica (BrightEdge Q1 2025). Perché Google raccomanda come fonte anche all'utente quello in cui l'LLM ripone fiducia.

Mitigazione del Rischio: Checklist Production

Prima di distribuire contenuti IA, esegui questi controlli:

Human edit pass: Almeno 1 editor umano deve rivedere ogni pagina — non "riscrivi tutto", ma "ci sono allucinazioni, i claim sono verificabili, il tono è coerente". Questo richiede 5 minuti/pagina.
Perplexity check: Passa l'output dell'LLM attraverso un modello di perplexity (ad es. GPT-2 small). Se perplexity <30, il testo è troppo prevedibile — rischio impronta LLM. Target: 35-50.
Entity verification: Valida automaticamente ogni claim numerico + ogni entità nel testo. Per questo usa un'API fact-checking (ad es. Google Fact Check Tools API) o script custom. Rimuovi i claim non verificabili o marcali come "stima".
Publish cadence: Non pubblicare 5+ pagine al giorno. Ideale: 10-15 pagine a settimana, distribuite uniformemente. La soglia di velocity di Google non la sappiamo, ma il lato sicuro è imitare la velocità del team editoriale umano.

Chiusura: Non Rilevamento, ma Meccanismo di Fiducia

Google non bannisce i contenuti IA — banna i contenuti a bassa fiducia. Se usi la produzione IA, devi rafforzare i segnali di fiducia: attribution, editing, entity validation, publish lento. La matrice di rischio è semplice: hallucination alto + velocity alta + zero link esterni = 68% di probabilità di deindex (analisi coorte Ahrefs 2025). Fai l'opposto: claim verificabili + human review + cadenza normale = la produzione IA rimane invisibile, la performance identica ai contenuti organici.