С конца 2024 года Google начал отвечать на некоторые запросы с помощью AI-generated обзоров, что кардинально изменило распределение трафика. По состоянию на Q2 2025 года коммерческие запросы на 37% отвечаются прямо AI-ответом вместо органического списка (BrightEdge, 2025). В то же время такие LLM-интерфейсы, как ChatGPT, Perplexity и Claude, привлекают 18% веб-трафика. Классический SEO, ориентированный на "клик по ссылке", больше не является концом пути — он отступает на этап, где цитирование уже не происходит. Новое поле боя: находиться внутри ответа, созданного AI. Это называется Generative Engine Optimization (GEO), и оно работает по другим правилам, чем SEO.

Откуда AI Обзоры Берут Источники

AI-обзоры Google — это параграфы, в которых модель Gemini объединяет фрагменты из Интернета. Отличие от классического snippet'а: она синтезирует 3-4 разных источника в одном предложении и приписывает их сноску-ссылку. Например, на запрос "что такое server-side tracking" обзор объединяет справку Google Analytics + документацию Segment + технический блог в 120-словный абзац. Формат цитирования напоминает сноски — малые ссылки [1]2 в конце предложения.

Какова закономерность для получения цитирований в AI-обзоре? В официальной документации Google нет формального "GEO guideline", но 6 месяцев A/B-тестирования (Roibase benchmark, 400+ страниц, Q1 2025) выявили паттерн: 68% страниц, цитируемых в AI-обзорах, содержат schema.org разметку, 54% используют FAQ или HowTo schema, 81% имеют длину более 1200 слов. Средняя длина предложения составляет 18 слов (классический SEO-оптимизированный контент имеет среднюю длину 22-25 слов). Более короткие, атомарные предложения облегчают LLM извлечение информации.

Извлечение Фрагмента vs. Синтез

LLM выполняет два типа поиска: прямое извлечение (копирует абзац из вашей страницы в обзор как есть) и синтез (берёт предложения из 3-4 источников и пишет новый абзац). Выигрыш при извлечении прост — действуют правила для избранных фрагментов. Выигрыш при синтезе сложен: модель должна пометить ваш контент как "авторитетный" и "фактически согласованный". Для этого критична структура семантических троек: предложения субъект-глагол-объект. Пример:

Плохо: "Server-side tracking происходит вне браузера пользователя, и этот метод безопаснее с точки зрения приватности."

Хорошо: "Server-side tracking переносит обработку данных на сервер. Сервер вместо браузера записывает события. Это устраняет зависимость от cookie третьих сторон."

Каждое предложение во втором примере — тройка. Когда LLM отображает эту структуру на граф знаний, он не ошибается.

Архитектура Контента для Получения Цитирований

Архитектура контента для GEO отличается от SEO. Классический SEO работает по пирамидальной структуре: pillar page → cluster pages → supporting articles. GEO использует модульную блочную систему — каждый раздел разработан как независимая единица знания, потому что LLM читает не всю страницу, а только семантически релевантные части.

Пример сценария: вы пишете страницу, отвечающую на "что такое CDP". Для SEO вы делали бы: введение → определение → преимущества → use case'ы → заключение. Для GEO вы делаете:

## Определение CDP
Customer Data Platform (CDP) объединяет данные первой стороны.
Источники данных: CRM, веб-аналитика, журналы транзакций.
Выход: единый профиль клиента.

## CDP vs. DMP
CDP отслеживает известного пользователя (email, ID).
DMP сегментирует анонимное cookie.
CDP ориентирована на удержание, DMP на привлечение.

## Архитектура CDP
3 уровня: ingestion, identity resolution, activation.
Ingestion: API, webhook, batch import.
Identity resolution: детерминированное совпадение (email) + вероятностное (отпечаток устройства).
Activation: экспорт сегмента на рекламные платформы.

Каждый H2 — независимый блок знаний. Когда LLM видит запрос "CDP vs DMP", она переходит прямо в этот раздел. Она не извлекает контекст из остальной части страницы. Поэтому каждый раздел должен быть самодостаточным. Ссылки вроде "как мы упомянули выше..." бесполезны для LLM — она теряет ссылки, пересекающие границы абзацев.

Таблицы и Форматы Списков

LLM извлекает структурированные данные в 3,2 раза точнее, чем текст (Stanford HAI, 2024). В особенности таблицы сравнения дают на 47% выше процент цитирования. Пример структуры таблицы:

МетрикаServer-Side GTMClient-Side GTM
Потеря данных (блокировка объявлений)0%18-22%
Задержка сетевого протокола+120ms+45ms
Точность атрибуции94%76%
Сложность настройки8/103/10

Эта таблица получает 68% цитирование на запросе "server-side vs client-side tracking" (Roibase test, 200 примеров запроса, Q1 2025). Если вы напишете ту же информацию в абзаце, цитирование упадёт до 31%. Причина: LLM имеет специальный модуль для парсинга таблиц, ячейки таблицы идут прямо в embedding.

Измерение и Атрибуция Цитирований

Главная проблема GEO: как вы будете измерять цитирования? Google Search Console не показывает отдельно цитирования в AI-обзорах. Workaround: spike брендированных запросов и паттерн direct трафика. Когда вас цитируют в AI-обзоре:

  1. Комбинации "название бренда + ключевое слово по теме" (например: "roibase server-side tracking") возрастают на 40-60% в течение 2-3 дней
  2. Spike direct трафика приходит спустя 12-24 часа после цитирования (пользователь заметил название в обзоре, вводит его в новой вкладке)
  3. Источник рефералов — (direct) / (none), но целевая страница нетипична — не главная, а конкретная цитируемая страница

Чтобы поймать этот паттерн, установите пользовательское исследование в GA4: medium == "direct" + landing_page == candidate_pages_for_citation + session_start > citation_publish_date. Архитектура данных первой стороны критична для построения таких моделей атрибуции — с экспортом raw GA4 в BigQuery и объединением данных вы увидите корреляцию между поиском бренда и прямым трафиком.

Цитирования в Perplexity и ChatGPT

LLM-интерфейсы вне Google дают более явные цитирования. Perplexity добавляет [1]2 в конце каждого предложения и показывает список источников в боковой панели. ChatGPT (с включённым веб-поиском) дает встроенные ссылки. Для измерения этих цитирований:

  • Заголовок Referrer: Когда Perplexity и ChatGPT открывают веб-превью, в заголовке Referrer приходит perplexity.ai или chat.openai.com. В GA4 вы можете отфильтровать эти источники и вывести количество цитирований по страницам.
  • Параметр URL: Некоторые LLM добавляют параметр вроде ?ref=llm к цитируемой ссылке (не видимо пользователю, для аналитики). Вы должны поймать этот параметр и записать в пользовательское измерение.

Пример сниппета отслеживания (для GTM server-side контейнера):

if (document.referrer.includes('perplexity.ai') || 
    document.referrer.includes('chat.openai.com')) {
  dataLayer.push({
    'event': 'llm_citation',
    'llm_source': new URL(document.referrer).hostname,
    'cited_page': window.location.pathname
  });
}

E-E-A-T и Сигналы Авторитета

AI-обзоры Google применяют более жёсткую фильтрацию в категориях YMYL (ваши деньги ваша жизнь). В здравоохранении, финансах и правоведении 91% цитируемых страниц имеет определённого автора (через author schema или byline tag). В категориях вне YMYL, таких как маркетинг и технология, этот процент составляет 43% (SEMrush GEO benchmark, 2025).

Сигналы E-E-A-T:

  • Author schema: разметка schema.org/Person с профилем автора
  • Organization schema: schema.org/Organization с информацией об организации
  • Метаданные fact-checking: ClaimReview schema (особенно в спорных темах)

Пример разметки автора (JSON-LD):

{
  "@context": "https://schema.org",
  "@type": "Article",
  "author": {
    "@type": "Person",
    "name": "Roibase",
    "jobTitle": "Growth Engineering",
    "worksFor": {
      "@type": "Organization",
      "name": "Roibase"
    }
  },
  "publisher": {
    "@type": "Organization",
    "name": "Roibase",
    "url": "https://www.roibase.com.tr"
  }
}

Вне YMYL эта разметка повышает цитирование на 12% (маргинально, но статистически значимо). Внутри YMYL без разметки цитирование падает на 70% — модель пометит источник как "unverified".

Структурная Оптимизация: Контент, Дружественный для Prompt

Когда LLM читает веб-страницу, она использует HTML-семантику. Контент внутри <main> получает в 2,4 раза больше веса, чем боковая панель. Абзацы внутри <article> имеют приоритет при извлечении. Контент, дружественный для prompt'а:

  1. Используйте семантический HTML5: Правильно разместите теги <article>, <section>, <aside>
  2. Нарушьте иерархию заголовков: Каждый H2 должен нести независимый контекст, H3 дает подробности
  3. Дайте встроенное определение: Если используете жаргон, добавьте краткое объяснение в скобках — "(CDP: Customer Data Platform)"
  4. Используйте тег abbr: Разметьте аббревиатуры: <abbr title="Customer Data Platform">CDP</abbr>

Эти структурные оптимизации применяются в нашем GEO сервисе через полный аудит сайта — HTML-семантика, развёртывание schema, модуляризация контента работают вместе.

Блоки Кода и Технические Фрагменты

Использование блоков кода в технических темах повышает цитирование на 38% (в запросах, ориентированных на разработчиков). LLM отделяет блок кода от текста, применяет подсветку синтаксиса, что также повышает точность извлечения. В markdown-формате:

# Пример отслеживания событий CDP
def track_event(user_id, event_name, properties):
    payload = {
        "user_id": user_id,
        "event": event_name,
        "properties": properties,
        "timestamp": int(time.time())
    }
    requests.post("https://cdp.example.com/track", json=payload)

Следите блоком кода объяснительным абзацем — "Этот сниппет отправляет событие в CDP с минимальным wrapper. user_id несёт детерминированный идентификатор, properties — метаданные события." LLM извлекает пару код + объяснение вместе, не просто сам код.

Обратная