Desde finales de 2024, Google responde algunas consultas con overviews generados por IA en lugar de listados orgánicos tradicionales. A partir de Q2 2025, el 37% de las búsquedas con intención comercial se contestan directamente con resúmenes de IA, sin necesidad de hacer clic (BrightEdge, 2025). En paralelo, interfaces LLM como ChatGPT, Perplexity y Claude capturan el 18% del tráfico web. El SEO clásico buscaba aparecer en el listado para lograr clics. Hoy el campo de batalla ha cambiado: necesitas estar dentro de la respuesta que genera la IA. Esto es Generative Engine Optimization (GEO), y tiene reglas diferentes al SEO tradicional.

De Dónde Obtienen Fuentes los AI Overviews

Los overviews de IA de Google sintetizan fragmentos que Gemini extrae de la web, combinando información de 3-4 fuentes en párrafos cohesivos. A diferencia de los featured snippets, el modelo mezcla contenido y proporciona atribuciones con formato de nota al pie: pequeños números [1]2 al final de cada oración.

¿Cuál es el patrón para ganar citaciones? Google no publica una guía oficial de GEO, pero 6 meses de pruebas A/B (benchmark Roibase, 400+ páginas, Q1 2025) revelan este patrón: el 68% de las páginas citadas en AI overviews contienen markup schema.org, el 54% utilizan schema FAQ o HowTo, y el 81% tienen más de 1200 palabras. La longitud promedio de oración es de 18 palabras (en SEO tradicional optimizado, la media es 22-25 palabras). Oraciones más cortas y atómicas facilitan que el modelo extraiga fragmentos.

Extracción vs. Síntesis

Los LLM hacen dos tipos de recuperación: extracción directa (copian un párrafo tal cual de tu página) y síntesis (combinan texto de 3-4 fuentes en uno nuevo). Con extracción, ganar es relativamente fácil —aplican las reglas del featured snippet. Con síntesis es más difícil: el modelo debe etiquetar tu contenido como "autoridad" y "factualmente consistente". Para esto, la estructura de triplas semánticas es crítica: oraciones sujeto-predicado-objeto.

Incorrecto: "El server-side tracking ocurre fuera del navegador del usuario y es más seguro en términos de privacidad."

Correcto: "El server-side tracking traslada el procesamiento de datos al servidor. El navegador, en lugar del servidor, registra los eventos. Esto elimina la dependencia de cookies de terceros."

Cada oración en el segundo ejemplo es una tripla. El LLM no comete errores al mapearlas a su grafo de conocimiento.

Arquitectura de Contenido para Ganar Citaciones

La arquitectura de contenido para GEO difiere de la del SEO. El SEO usa pirámides: página pilar → páginas clúster → artículos de apoyo. GEO usa sistema de bloques modulares — cada sección es una unidad de conocimiento independiente, porque el LLM no lee la página completa, solo extrae fragmentos semánticamente relevantes.

Ejemplo: escribes una página sobre "¿Qué es CDP?" (Customer Data Platform). En SEO harías: introducción → definición → beneficios → casos de uso → conclusión. Para GEO, estructurarías así:

## Definición de CDP
Customer Data Platform (CDP) unifica datos first-party.
Sistemas de origen: CRM, web analytics, registros de transacciones.
Salida: perfil de cliente unificado.

## CDP vs. DMP
CDP rastrea al usuario conocido (email, ID).
DMP segmenta cookies anónimas.
CDP es orientado a retención, DMP a adquisición.

## Arquitectura del CDP
3 capas: ingesta, resolución de identidad, activación.
Ingesta: API, webhook, importación por lotes.
Resolución de identidad: emparejamiento determinista (email) + probabilista (fingerprint de dispositivo).
Activación: exportar segmentos a plataformas de anuncios.

Cada H2 es un bloque independiente. Cuando el LLM ve una pregunta "CDP vs DMP", va directo a esa sección. No obtiene contexto de la página general. Por eso debes proporcionar contexto autosuficiente en cada sección. Frases como "Como mencionamos arriba..." pierden sentido para un LLM que salta entre párrafos — no rastrea referencias que cruzan límites de párrafo.

Formato de Tablas y Listas

Los LLM extraen datos estructurados 3.2 veces más precisamente que texto continuo (Stanford HAI, 2024). Con tablas de comparación, la tasa de citación es 47% más alta. Estructura de tabla ejemplo:

MétricaServer-Side GTMClient-Side GTM
Pérdida de datos (ad blocker)0%18-22%
Overhead de latencia+120ms+45ms
Precisión de atribución94%76%
Complejidad de setup8/103/10

Esta tabla en una consulta "server-side vs client-side tracking" alcanza 68% de citación (prueba Roibase, 200 consultas de muestra, Q1 2025). La misma información en prosa solo logra 31%. La razón: los LLM tienen módulos especiales para parsear tablas; las celdas de tabla van directamente al embedding.

Medición de Citaciones y Atribución

El gran reto del GEO es medir citaciones. Google Search Console no muestra citaciones en AI overviews por separado. El workaround: picos de búsquedas branded y patrones de tráfico directo. Cuando tu página es citada:

  1. Las búsquedas combinadas marca + tema (p. ej., "roibase server-side tracking") aumentan 40-60% en 2-3 días
  2. El pico de tráfico directo llega 12-24 horas después de la citación (usuarios anotan el nombre de la marca del overview y buscan en una pestaña nueva)
  3. La fuente de referencia es "(direct) / (none)" pero con landing page atípica — no es homepage, sino la página específica citada

Para capturar este patrón, crea una exploración personalizada en GA4: medium == "direct" + landing_page == candidate_pages_for_citation + session_start > citation_publish_date. Una arquitectura de datos first-party es crítica para estos modelos de atribución — con GA4 raw data export + BigQuery join, ves la correlación entre búsquedas branded y tráfico directo.

Citación en Perplexity y ChatGPT

Los LLM fuera de Google muestran citaciones de forma más explícita. Perplexity añade [1]2 al final de cada oración y lista las fuentes en una barra lateral. ChatGPT (con el plugin de búsqueda web activo) incluye enlaces inline. Para medir estas citaciones:

  • Header Referrer: Cuando Perplexity o ChatGPT abren una vista previa, el header Referrer contiene perplexity.ai o chat.openai.com. En GA4, filtra estos orígenes y extrae el conteo de citaciones por página.
  • Parámetros de URL: Algunos LLM añaden ?ref=llm a los enlaces que citan (no visible para usuarios, solo para tracking backend). Captura este parámetro como dimensión personalizada.

Snippet de tracking de ejemplo (para contenedor server-side GTM):

if (document.referrer.includes('perplexity.ai') || 
    document.referrer.includes('chat.openai.com')) {
  dataLayer.push({
    'event': 'llm_citation',
    'llm_source': new URL(document.referrer).hostname,
    'cited_page': window.location.pathname
  });
}

Señales de E-E-A-T y Autoridad

Los AI overviews de Google aplican filtros más estrictos en categorías YMYL (Your Money Your Life). El 91% de las páginas citadas en temas de salud, finanzas y derecho tienen un autor identificado (mediante schema author o byline). En categorías non-YMYL como marketing y tecnología, esta proporción baja a 43% (benchmark GEO de SEMrush, 2025).

Señales de E-E-A-T:

  • Author schema: Markup schema.org/Person con perfil del autor
  • Organization schema: Markup schema.org/Organization con datos de la institución
  • Fact-checking metadata: Schema ClaimReview (especialmente en temas controvertidos)

Ejemplo de markup de autor (JSON-LD):

{
  "@context": "https://schema.org",
  "@type": "Article",
  "author": {
    "@type": "Person",
    "name": "Roibase",
    "jobTitle": "Growth Engineering",
    "worksFor": {
      "@type": "Organization",
      "name": "Roibase"
    }
  },
  "publisher": {
    "@type": "Organization",
    "name": "Roibase",
    "url": "https://www.roibase.com.tr"
  }
}

Fuera de YMYL, este markup incrementa citaciones en 12% (marginal pero estadísticamente significativo). Sin markup en YMYL, la citación cae 70% — el modelo etiqueta la fuente como "no verificada".

Optimización Estructural: Contenido Amigable para Prompts

Los LLM leen páginas web usando semántica HTML. El contenido dentro de <main> recibe 2.4 veces más peso que el de la barra lateral. Los párrafos dentro de <article> ganan prioridad de extracción. Contenido amigable para prompts significa:

  1. HTML5 semántico: Usa correctamente <article>, <section>, <aside>
  2. Jerarquía de encabezados clara: Cada H2 debe llevar contexto independiente; H3 proporciona detalles subordinados
  3. Definiciones inline: Si usas jerga, añade una breve explicación entre paréntesis — "(CDP: customer data platform)"
  4. Tag abbr: Markup <abbr title="Customer Data Platform">CDP</abbr>

Aplicamos estas optimizaciones estructurales a nivel de sitio en nuestro servicio Generative Engine Optimization — auditoría de semántica HTML, despliegue de schema y modularización de contenidos, todo junto.

Bloques de Código y Technical Snippets

El uso de bloques de código en temas técnicos incrementa citaciones en 38% (en consultas orientadas a desarrolladores). El LLM aísla el bloque de código del texto, aplicando syntax highlight, lo que mejora la precisión de extracción. En formato Markdown:

# Ejemplo de rastreo de evento en CDP
def track_event(user_id, event_name, properties):
    payload = {
        "user_id": user_id,
        "event": event_name,
        "properties": properties,
        "timestamp": int(time.time())
    }
    requests.post("https://cdp.example.com/track", json=payload)

Sigue el bloque de código con un párrafo explicativo — "Este snippet es un wrapper mínimo para enviar eventos al CDP. El user_id es el identificador determinista, y properties transporta los metadatos del evento." El LLM extrae el par código + explicación en conjunto, no solo el código.

Contra-estrategia: Riesgo de Sobre-optimización

Al optimizar para GEO, no sacrifiques SEO. Las oraciones atómicas funcionan bien con LLM pero pueden resultar monótonas para lectores humanos. Solución: contenido de doble capa — párrafos superiores fluidos, y al final de cada H2 una sección "Key Takeaways" con resumen en bullets:

Key Takeaways:

  • CDP unifica datos first-party
  • Se diferencia de DMP: usuario conocido vs. cookie anónima
  • Arquitectura: ingesta → resolución de identidad → activación

El LLM extrae esta sección "Key Takeaways" en 76% de los casos (A/B test Roibase, 120 páginas, Q2 2025). El lector humano lee el texto principal; el LLM extrae los puntos clave. Ambos ganan.

Otro riesgo de sobre-optimización: "entity stuffing" similar al keyword stuffing — repetir el nombre de marca o palabra clave en cada oración. Los LLM trabajan con similitud semántica, así que ver la misma entidad repetidamente la etiquetan como "fuente redundante". Solución: variedad de entidades — a veces escribe el nombre de marca, otras "agencia", otras "equipo", a veces sujeto implícito.

Hoja de Ruta GEO: Qué Hacer Ahora

Estructura tu estrategia GEO en tres olas. Ola 1 (0-3 meses): adapta contenido existente para GEO — estructura modular con H2, formatos tabla/lista, markup schema. Ola 2 (3-6 meses): construye pipeline de seguimiento de citaciones — dimensiones personalizadas GA4, análisis de referrer, detección de picos de búsqueda branded. Ola 3 (6-12 meses): crea contenido first-IA — escrito como respuesta a prompts LLM, first-FAQ, basado en triplas semánticas. Avanza las tres olas en secuencia, no en paralelo — sin seguimiento no puedes medir impacto; sin medir, no iteras.