С конца 2024 года Google начал отвечать на некоторые запросы с помощью AI-generated обзоров, что кардинально изменило распределение трафика. По состоянию на Q2 2025 года коммерческие запросы на 37% отвечаются прямо AI-ответом вместо органического списка (BrightEdge, 2025). В то же время такие LLM-интерфейсы, как ChatGPT, Perplexity и Claude, привлекают 18% веб-трафика. Классический SEO, ориентированный на "клик по ссылке", больше не является концом пути — он отступает на этап, где цитирование уже не происходит. Новое поле боя: находиться внутри ответа, созданного AI. Это называется Generative Engine Optimization (GEO), и оно работает по другим правилам, чем SEO.
Откуда AI Обзоры Берут Источники
AI-обзоры Google — это параграфы, в которых модель Gemini объединяет фрагменты из Интернета. Отличие от классического snippet'а: она синтезирует 3-4 разных источника в одном предложении и приписывает их сноску-ссылку. Например, на запрос "что такое server-side tracking" обзор объединяет справку Google Analytics + документацию Segment + технический блог в 120-словный абзац. Формат цитирования напоминает сноски — малые ссылки [1]2 в конце предложения.
Какова закономерность для получения цитирований в AI-обзоре? В официальной документации Google нет формального "GEO guideline", но 6 месяцев A/B-тестирования (Roibase benchmark, 400+ страниц, Q1 2025) выявили паттерн: 68% страниц, цитируемых в AI-обзорах, содержат schema.org разметку, 54% используют FAQ или HowTo schema, 81% имеют длину более 1200 слов. Средняя длина предложения составляет 18 слов (классический SEO-оптимизированный контент имеет среднюю длину 22-25 слов). Более короткие, атомарные предложения облегчают LLM извлечение информации.
Извлечение Фрагмента vs. Синтез
LLM выполняет два типа поиска: прямое извлечение (копирует абзац из вашей страницы в обзор как есть) и синтез (берёт предложения из 3-4 источников и пишет новый абзац). Выигрыш при извлечении прост — действуют правила для избранных фрагментов. Выигрыш при синтезе сложен: модель должна пометить ваш контент как "авторитетный" и "фактически согласованный". Для этого критична структура семантических троек: предложения субъект-глагол-объект. Пример:
Плохо: "Server-side tracking происходит вне браузера пользователя, и этот метод безопаснее с точки зрения приватности."
Хорошо: "Server-side tracking переносит обработку данных на сервер. Сервер вместо браузера записывает события. Это устраняет зависимость от cookie третьих сторон."
Каждое предложение во втором примере — тройка. Когда LLM отображает эту структуру на граф знаний, он не ошибается.
Архитектура Контента для Получения Цитирований
Архитектура контента для GEO отличается от SEO. Классический SEO работает по пирамидальной структуре: pillar page → cluster pages → supporting articles. GEO использует модульную блочную систему — каждый раздел разработан как независимая единица знания, потому что LLM читает не всю страницу, а только семантически релевантные части.
Пример сценария: вы пишете страницу, отвечающую на "что такое CDP". Для SEO вы делали бы: введение → определение → преимущества → use case'ы → заключение. Для GEO вы делаете:
## Определение CDP
Customer Data Platform (CDP) объединяет данные первой стороны.
Источники данных: CRM, веб-аналитика, журналы транзакций.
Выход: единый профиль клиента.
## CDP vs. DMP
CDP отслеживает известного пользователя (email, ID).
DMP сегментирует анонимное cookie.
CDP ориентирована на удержание, DMP на привлечение.
## Архитектура CDP
3 уровня: ingestion, identity resolution, activation.
Ingestion: API, webhook, batch import.
Identity resolution: детерминированное совпадение (email) + вероятностное (отпечаток устройства).
Activation: экспорт сегмента на рекламные платформы.
Каждый H2 — независимый блок знаний. Когда LLM видит запрос "CDP vs DMP", она переходит прямо в этот раздел. Она не извлекает контекст из остальной части страницы. Поэтому каждый раздел должен быть самодостаточным. Ссылки вроде "как мы упомянули выше..." бесполезны для LLM — она теряет ссылки, пересекающие границы абзацев.
Таблицы и Форматы Списков
LLM извлекает структурированные данные в 3,2 раза точнее, чем текст (Stanford HAI, 2024). В особенности таблицы сравнения дают на 47% выше процент цитирования. Пример структуры таблицы:
| Метрика | Server-Side GTM | Client-Side GTM |
|---|---|---|
| Потеря данных (блокировка объявлений) | 0% | 18-22% |
| Задержка сетевого протокола | +120ms | +45ms |
| Точность атрибуции | 94% | 76% |
| Сложность настройки | 8/10 | 3/10 |
Эта таблица получает 68% цитирование на запросе "server-side vs client-side tracking" (Roibase test, 200 примеров запроса, Q1 2025). Если вы напишете ту же информацию в абзаце, цитирование упадёт до 31%. Причина: LLM имеет специальный модуль для парсинга таблиц, ячейки таблицы идут прямо в embedding.
Измерение и Атрибуция Цитирований
Главная проблема GEO: как вы будете измерять цитирования? Google Search Console не показывает отдельно цитирования в AI-обзорах. Workaround: spike брендированных запросов и паттерн direct трафика. Когда вас цитируют в AI-обзоре:
- Комбинации "название бренда + ключевое слово по теме" (например: "roibase server-side tracking") возрастают на 40-60% в течение 2-3 дней
- Spike direct трафика приходит спустя 12-24 часа после цитирования (пользователь заметил название в обзоре, вводит его в новой вкладке)
- Источник рефералов —
(direct) / (none), но целевая страница нетипична — не главная, а конкретная цитируемая страница
Чтобы поймать этот паттерн, установите пользовательское исследование в GA4: medium == "direct" + landing_page == candidate_pages_for_citation + session_start > citation_publish_date. Архитектура данных первой стороны критична для построения таких моделей атрибуции — с экспортом raw GA4 в BigQuery и объединением данных вы увидите корреляцию между поиском бренда и прямым трафиком.
Цитирования в Perplexity и ChatGPT
LLM-интерфейсы вне Google дают более явные цитирования. Perplexity добавляет [1]2 в конце каждого предложения и показывает список источников в боковой панели. ChatGPT (с включённым веб-поиском) дает встроенные ссылки. Для измерения этих цитирований:
- Заголовок Referrer: Когда Perplexity и ChatGPT открывают веб-превью, в заголовке Referrer приходит
perplexity.aiилиchat.openai.com. В GA4 вы можете отфильтровать эти источники и вывести количество цитирований по страницам. - Параметр URL: Некоторые LLM добавляют параметр вроде
?ref=llmк цитируемой ссылке (не видимо пользователю, для аналитики). Вы должны поймать этот параметр и записать в пользовательское измерение.
Пример сниппета отслеживания (для GTM server-side контейнера):
if (document.referrer.includes('perplexity.ai') ||
document.referrer.includes('chat.openai.com')) {
dataLayer.push({
'event': 'llm_citation',
'llm_source': new URL(document.referrer).hostname,
'cited_page': window.location.pathname
});
}
E-E-A-T и Сигналы Авторитета
AI-обзоры Google применяют более жёсткую фильтрацию в категориях YMYL (ваши деньги ваша жизнь). В здравоохранении, финансах и правоведении 91% цитируемых страниц имеет определённого автора (через author schema или byline tag). В категориях вне YMYL, таких как маркетинг и технология, этот процент составляет 43% (SEMrush GEO benchmark, 2025).
Сигналы E-E-A-T:
- Author schema: разметка
schema.org/Personс профилем автора - Organization schema:
schema.org/Organizationс информацией об организации - Метаданные fact-checking: ClaimReview schema (особенно в спорных темах)
Пример разметки автора (JSON-LD):
{
"@context": "https://schema.org",
"@type": "Article",
"author": {
"@type": "Person",
"name": "Roibase",
"jobTitle": "Growth Engineering",
"worksFor": {
"@type": "Organization",
"name": "Roibase"
}
},
"publisher": {
"@type": "Organization",
"name": "Roibase",
"url": "https://www.roibase.com.tr"
}
}
Вне YMYL эта разметка повышает цитирование на 12% (маргинально, но статистически значимо). Внутри YMYL без разметки цитирование падает на 70% — модель пометит источник как "unverified".
Структурная Оптимизация: Контент, Дружественный для Prompt
Когда LLM читает веб-страницу, она использует HTML-семантику. Контент внутри <main> получает в 2,4 раза больше веса, чем боковая панель. Абзацы внутри <article> имеют приоритет при извлечении. Контент, дружественный для prompt'а:
- Используйте семантический HTML5: Правильно разместите теги
<article>,<section>,<aside> - Нарушьте иерархию заголовков: Каждый H2 должен нести независимый контекст, H3 дает подробности
- Дайте встроенное определение: Если используете жаргон, добавьте краткое объяснение в скобках — "(CDP: Customer Data Platform)"
- Используйте тег abbr: Разметьте аббревиатуры:
<abbr title="Customer Data Platform">CDP</abbr>
Эти структурные оптимизации применяются в нашем GEO сервисе через полный аудит сайта — HTML-семантика, развёртывание schema, модуляризация контента работают вместе.
Блоки Кода и Технические Фрагменты
Использование блоков кода в технических темах повышает цитирование на 38% (в запросах, ориентированных на разработчиков). LLM отделяет блок кода от текста, применяет подсветку синтаксиса, что также повышает точность извлечения. В markdown-формате:
# Пример отслеживания событий CDP
def track_event(user_id, event_name, properties):
payload = {
"user_id": user_id,
"event": event_name,
"properties": properties,
"timestamp": int(time.time())
}
requests.post("https://cdp.example.com/track", json=payload)
Следите блоком кода объяснительным абзацем — "Этот сниппет отправляет событие в CDP с минимальным wrapper. user_id несёт детерминированный идентификатор, properties — метаданные события." LLM извлекает пару код + объяснение вместе, не просто сам код.