Medición de Citas en LLM — Tu Nuevo Conjunto de Métricas SEO

Mientras tu CTR en Google Search Console cae, el número de usuarios en ChatGPT crece. Es hora de renovar tu sistema de medición. En 2026, el SEO dejó de preguntar "¿en qué posición estamos para esta palabra clave?" y cambió a "¿en cuántas respuestas de ChatGPT/Perplexity nos menciona como fuente?". El seguimiento de citas en LLM —monitorear con qué frecuencia, en qué contexto y en qué posición tu marca aparece como referencia en las respuestas del modelo— es tu nuevo indicador de rendimiento orgánico. En este artículo construirás el conjunto de métricas de citas y diseñarás un pipeline de reportes semanal.

Por Qué las Citas Son la Nueva Impresión

Obtuviste una impresión en Google, pero el usuario no hizo clic en tu enlace. Obtuviste una cita en ChatGPT, el usuario leyó la respuesta, no visitó tu sitio, pero tu marca quedó en su memoria. El modelo de atribución es diferente —sin tráfico directo, pero con recuerdo de marca. A finales de 2025, Perplexity superaba 15 millones de consultas diarias (deck de inversores de Perplexity 2025). ChatGPT tenía 200 millones de usuarios activos mensuales en modo búsqueda (blog de OpenAI, febrero 2025). Si no sabes si tu marca aparece citada en el 10 % de ese volumen, estás caminando en la oscuridad.

Una cita es en realidad una señal de confianza. El modelo eligió tu fuente para fundamentar su respuesta —un juicio editorial algorítmico. Dar forma a ese juicio es tarea de Optimización para Motores Generativos, medirlo es ingeniería de datos. Sin ambos, dejas las citas al azar.

En Google Analytics observas el segmento "búsqueda orgánica". En el seguimiento de citas en LLM deberías aplicar la misma disciplina: en qué conjunto de consultas apareces, cuántas veces, cuál es tu posición, quiénes son tus competidores, hacia dónde va la tendencia.

El Conjunto de Métricas: Cobertura de Citas, Ranking de Citas, Cuota de Voz

La métrica SEO clásica: impresiones, posición promedio, CTR. En el mundo de LLM, el conjunto paralelo: cobertura de citas (el porcentaje de respuestas donde tu marca aparece como fuente), ranking de citas (tu posición cuando se muestran múltiples fuentes), cuota de voz (tu participación en citas dentro de consultas de categoría).

Cobertura de Citas: De 100 consultas, ¿en cuántas tu marca aparece como fuente? Es un indicador binario —o estás o no estás—, como el conteo de impresiones en Google. No esperamos cobertura del 100 %, el benchmark depende de tu vertical. En fintech, una cobertura del 8 % es sólida; en gaming, incluso el 3 % puede ser valioso. Lo importante es la tendencia: ¿aumentó la cobertura respecto al mes anterior?

Ranking de Citas: Si Perplexity muestra 4 fuentes, ¿ocupas el 1.º o el 4.º lugar? ChatGPT generalmente incluye 2-3 enlaces en línea; ¿en qué posición apareces? Medir el ranking requiere parsear la respuesta del modelo —procesar el output con regex o JSON schema y extraer la posición del enlace. Tu prompt a Claude API: "¿En qué orden aparecen las fuentes en esta respuesta? Devuelve un JSON." Logra extracción zero-shot con ~92 % de precisión.

Cuota de Voz: En consultas sobre "software de gestión de proyectos", tú tienes 10 citas, el competidor A tiene 25, el competidor B tiene 8. SoV = 10 / (10+25+8) = 23 %. Esta métrica es similar a la cuota de impresiones en Google Ads. Muestra cuánto "espacio de atribución" capturas dentro de tu vertical. Para rastrearlo, necesitas definir un conjunto de consultas categóricas —lista de palabras clave semilla + expansión.

Métrica	Definición	Benchmark (fintech)	Fuente de Datos
Cobertura de Citas	Consultas citadas / total de consultas	6-12 %	Log de respuestas LLM
Ranking de Citas	Posición promedio (1 = primero)	1.8-2.5	Posición de enlace parseada
Cuota de Voz	Participación de citas en categoría	15-30 %	Conjunto de consultas competitivas

Para llenar esta tabla, primero necesitas definir tu conjunto de consultas.

Cómo Construir Tu Conjunto de Consultas

En Google Search Console, las palabras clave llegan automáticamente. En el seguimiento de citas en LLM, tú defines el conjunto de consultas. Dos enfoques: reactivo (consultas que los usuarios hacen realmente) o proactivo (conjuntos de consultas escenificados).

Reactivo: Extrae consultas reales de la API de Perplexity o logs de ChatGPT (si tienes acceso a través de una asociación). Sin estos datos, haz web scraping en redes sociales y foros: recopila preguntas reales de Reddit como "mejor CRM para startups". Estas consultas reflejan intención genuina. La desventaja: los datos se atrasan y son limitados.

Proactivo: Construye tu propia taxonomía de consultas. Ejemplo (para SaaS B2B):

{
  "intent_categories": [
    {
      "name": "feature_comparison",
      "templates": [
        "¿Cuál es la diferencia entre {feature_A} y {feature_B}",
        "¿{product} admite {feature}",
        "¿Cómo maneja {product} {use_case}"
      ]
    },
    {
      "name": "buying_decision",
      "templates": [
        "Mejor {product_category} para {company_size}",
        "{product_A} vs {product_B} para {use_case}",
        "¿Vale la pena {product} para {persona}"
      ]
    }
  ],
  "variables": {
    "product": ["Asana", "Monday", "ClickUp"],
    "feature": ["time tracking", "automatización", "API"],
    "company_size": ["startups", "enterprise", "SMB"]
  }
}

Expandiendo esta plantilla generas un conjunto de 200-500 consultas. Semanalmente envías este conjunto a los LLM, registras las respuestas y parses las citas.

Híbrido: Las primeras 3 meses trabaja con un conjunto proactivo para tener un benchmark controlado, después empieza a añadir logs de consultas reales. Así tienes ambos: una referencia consistente y señales del mundo real.

Pipeline de Seguimiento — Diseño del Workflow

El pipeline de seguimiento de citas consta de tres capas: ejecución de consultas, parseo de respuestas y agregación de métricas. Con n8n puedes automatizar fácilmente:

Trigger: Una vez por semana (lunes a las 06:00)
Bucle de Consultas: Extrae consultas del conjunto JSON
Request a LLM: Paralela a ChatGPT API + Perplexity API
Parseo de Respuesta: Envía a Claude: "¿Qué fuentes aparecen en esta respuesta, en orden, en formato JSON?"
Registro: Escribe {query, model, timestamp, citations, rank} en BigQuery
Agregación: Con dbt calcula métricas semanales de cobertura/ranking/SoV
Alerta: Si cobertura cae un 20 %, notifica por Slack

Cada paso debe ser trazable. Añade trace_id a los requests de LLM, guarda cada respuesta en BigQuery tabla llm_citation_raw. Así puedes analizar hacia atrás: "¿por qué no obtuvimos cita en esta consulta?".

Costo: ChatGPT API (gpt-4o-mini) 500 consultas/semana = ~$2. Suscripción Perplexity API (Pro tier) = $20/mes. Almacenamiento BigQuery (12 semanas de logs) = ~$0.50. Parseo Claude (500 requests/semana) = ~$3. Total mensual ~$30. Ni siquiera el 0.01 % de tu gasto en Google Ads, pero tienes visibilidad completa de tu citación.

Snippet de código (n8n HTTP node → BigQuery):

// n8n Function node — después del parseo de respuesta
const citations = $json.parsed_citations; // Array desde Claude
const rank = citations.findIndex(c => c.domain === 'roibase.com.tr') + 1;

return {
  query_id: $json.query_id,
  model: 'chatgpt-4o',
  timestamp: new Date().toISOString(),
  citations: citations,
  our_rank: rank > 0 ? rank : null,
  cited: rank > 0
};

Una vez que estos datos se escriben en BigQuery, con dbt haces esta transformación:

-- models/marts/citation_weekly_summary.sql
SELECT
  DATE_TRUNC(timestamp, WEEK) AS week,
  model,
  COUNT(DISTINCT query_id) AS total_queries,
  COUNTIF(cited) AS queries_with_citation,
  SAFE_DIVIDE(COUNTIF(cited), COUNT(DISTINCT query_id)) AS coverage,
  AVG(IF(cited, our_rank, NULL)) AS avg_rank
FROM {{ ref('llm_citation_raw') }}
WHERE timestamp >= CURRENT_DATE() - 90
GROUP BY 1, 2
ORDER BY 1 DESC, 2;

Un dashboard semanal con esta tabla + gráfico de tendencias es suficiente. No te abrumes con detalles innecesarios —cobertura y ranking son las dos señales clave.

Aumentar Citas — Intervenciones Tácticas

Ya tienes métricas, pero la cobertura se estanca en 4 %. ¿Qué haces? La optimización de citas funciona en tres ejes: estructura de contenido, inyección de contexto, autoridad de fuente.

Estructura de Contenido: Los LLM ponderan la jerarquía de títulos y el primer párrafo al generar respuestas. Usa formato de pregunta directa en tus encabezados H2. En lugar de "Cómo funciona", escribe "¿Cómo configuro el modelo de atribución el primer día?". Esto mejora el matching consulta-encabezado. Proporciona la respuesta principal en los primeros 150 caracteres —el modelo puede usar esa sección como snippet.

Inyección de Contexto: Los LLM rastrean meta description y schema markup. Con schema FAQPage, cada pareja pregunta-respuesta se convierte en un chunk de recuperación. Si la pregunta "¿Cómo mide Roibase la atribución?" está clara en tu schema, la probabilidad de que el modelo la retorne aumenta ~30 % (test A/B interno, marzo 2025). Añade el schema como JSON-LD a la página.

Autoridad de Fuente: El modelo no se fija en autoridad de dominio, sino en antigüedad del contenido + densidad de citación. Si tienes 3 artículos sobre el mismo tema con enlaces internos entre ellos, forman un cluster. El modelo considera este cluster como "fuente autorizada". Si desde tu página de Veri Analizi & İçgörü Mühendisliği enlazas a 5 artículos sobre BigQuery, tu probabilidad de aparecer citado en consultas "BigQuery para marketing" aumenta.

Táctica Contraintuiva: Enlaza a tu competidor. El modelo percibe "fuente equilibrada" y puede citar a ambos. Tu ranking de citación no cae, pero tu cobertura sube. En fintech probamos esto: en un artículo de análisis competitivo enlazamos a 2 productos alternativos, y en esa categoría de consultas la citación subió 18 % (cohorte de 4 semanas).

Conectar a Mecanismo de Decisión

Las métricas de citas aisladas en un dashboard no tienen valor. Conéctalas a tu roadmap de contenido, priorización de SEO y asignación de presupuesto.

Roadmap de Contenido: Tu reporte semanal de cobertura de citas llega. ¿En qué categoría de consultas es baja la cobertura? Produce contenido para esa categoría. Todas las categorías con cobertura por debajo del 15 % van al backlog. Prioriza por: volumen de consulta (¿cuántas preguntas hay?) × intención comercial (¿potencial de compra?).

Priorización de SEO: Estás en 1.º lugar en Google pero sin citas en ChatGPT. Problema de estructura de contenido. Reescribe esa página para que sea compatible con LLM. Al contrario: citas en ChatGPT pero posición 8 en Google. Te falta estrategia de backlinks. Los datos de citas exponen gaps de SEO.

Asignación de Presupuesto: Tu gasto en búsqueda pagada baja, la inversión en citas sube. Para pasar cobertura del 10 % al 25 %, inviertes $8K mensuales en producción de contenido + implementación de schema + SEO técnico. ¿Cómo mides ROI? Monitorea: volumen de búsqueda de marca (datos GMB) + tráfico directo (GA4) + recall no asistido en encuestas (trimestral). Conforme sube la citación, estas tres métricas deberían crecer también —hay un lag de 6 meses.

El seguimiento de citas en LLM es una nueva disciplina en organizaciones de marketing. Nadie aún abre posiciones de "citation manager", pero en 2027 lo harán. Por ahora, SEO y datos la gestionan colaborativamente. Construye el conjunto de métricas, automatiza el pipeline, observa la tendencia. Tres meses después de instalar Google Analytics veías la métrica "tráfico orgánico". Tres meses después de instalar