После отправки карты сайта丨Почему Google проиндексировал только часть страниц

本文作者:Don jiang

После отправки карты сайта через Google Search Console и обнаружения, что количество реально проиндексированных страниц значительно меньше ожидаемого, администраторы сайтов часто попадают в ловушку слепого увеличения количества отправок или частых изменений файла.

Согласно официальным данным на 2023 год, более 67% проблем с индексацией связаны с тремя основными причинами: неправильная настройка карты сайта, заблокированные пути обхода и низкое качество страниц.

Почему Google индексирует только некоторые страницы после отправки карты сайта?

Table of Contens

Ошибки в файле карты сайта

Если отправленная карта сайта не обрабатывается полностью Google, то основной причиной являются технические ошибки внутри самого файла.

Мы проверили карту сайта одного сайта электронной коммерции и обнаружили, что из-за того, что динамические параметры URL на страницах продуктов не были правильно фильтровались, 27 000 дублированных ссылок загрязняли файл, в результате чего Google индексировал только главную страницу.

▍Ошибка 1: Ошибки в формате, из-за которых анализ останавливается

Источник данных: Отчет по аудиту сайта Ahrefs 2023

Типичный пример: Карта сайта одного медицинского сайта была закодирована в Windows-1252, что помешало Google обработать 3200 страниц, индексируя только главную страницу (появилось предупреждение “Невозможно прочитать” в Google Search Console)

Типичные ошибки

✅ Неправильное закрытие XML-тегов (43% ошибок в формате)
✅ Некорректная кодировка специальных символов (например, использован символ & вместо &)
✅ Отсутствие объявления xmlns в XML (<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9"> отсутствует)

Экстренное решение

▍Ошибка 2: Мертвые ссылки вызывают проблемы с доверием

Отраслевое исследование: Данные, собранные с 500 000 сайтов с помощью Screaming Frog

Удивительные данные

✖️ В среднем каждая карта сайта содержит 4,7% мертвых ссылок (404/410)
✖️ Карты сайта, содержащие более 5% мертвых ссылок, приводят к снижению индексации на 62%

Реальный пример: Карта сайта платформы для путешествий содержала страницы продуктов, которые были удалены (редирект 302 на главную страницу), что Google воспринял как попытку манипулирования индексацией, что задержало индексацию основного контента на 117 дней

Решение

  1. Настройте инструмент обхода, чтобы имитировать “User-Agent” Googlebot для симуляции обхода всех ссылок в карте сайта
  2. Экспортируйте ссылки с кодом состояния, отличным от 200, и добавьте к ним <robots noindex> или удалите их из карты сайта

▍Ошибка 3: Большой размер файла приводит к сокращению данных

Предупреждающие ограничения от Google

⚠️ Если карта сайта превышает 50 МБ или содержит более 50 000 ссылок, ее обработка будет остановлена автоматически

Катастрофический пример: Карта сайта новостного сайта не была разделена и содержала 82 000 ссылок на статьи, в результате чего Google обработал только 48 572 ссылки (подтверждено анализом логов)

Стратегия разделения
🔹 Разделите по типу контента: /sitemap-articles.xml, /sitemap-products.xml
🔹 Разделите по дате: /sitemap-2023-08.xml (подходит для сайтов с частыми обновлениями)

Мониторинг размера файла

Используйте скрипт Python каждую неделю для подсчета количества строк в файле (wc -l sitemap.xml) и настройте уведомление, когда количество строк достигнет 45 000.

▍Ошибка 4: Злоупотребление частотой обновлений замедляет индексацию

Механизмы защиты от обхода

🚫 Злоупотребление тегом <lastmod> (например, установка текущей даты для всех страниц) замедляет индексацию на 40%

Вывод: Один форум обновлял дату lastmod для всех страниц ежедневно, и через три недели скорость индексации упала с 89% до 17%

Рекомендации

✅ Обновляйте <lastmod> только для страниц, которые действительно были изменены (с точностью до минуты: 2023-08-20T15:03:22+00:00)
✅ Установите <changefreq>monthly</changefreq> для старых страниц, чтобы уменьшить нагрузку на обход

Структура сайта блокирует пути обхода

Даже если карта сайта идеальна, структура сайта может быть “лабиринтом” для Googlebot.

Страницы, созданные с использованием React и не рендеренные заранее, будут считаться Google “пустыми” страницами на 60%.

Когда распределение внутренних ссылок несбалансировано (например, если главная страница содержит более 150 внешних ссылок), глубина обхода ограничится двумя уровнями, что означает, что более глубокие страницы, такие как страницы продуктов, никогда не будут проиндексированы.

Файл robots.txt блокирует важные страницы

Типичные сценарии

  • Предустановленные правила в WordPress, такие как Disallow: /wp-admin/, блокируют ссылки на связанные статьи (например, /wp-admin/post.php?post=123)
  • Создание Disallow: /a/ по умолчанию в Shopify блокирует страницы профилей участников

Влияние данных

✖️ 19% сайтов теряют более 30% индексации из-за ошибки в настройках robots.txt
✖️ Когда Googlebot сталкивается с правилом Disallow, в среднем требуется 14 дней для повторной попытки проверки пути

Решения

  1. Используйте инструмент тестирования robots.txt для проверки воздействия правил
  2. Не блокировать URL с динамическими параметрами, такими как ?ref=, если только вы не уверены, что в них нет контента
  3. Для неправильно заблокированных страниц, после снятия блокировки в robots.txt, отправьте их на повторную проверку через инструмент проверки URL

▍ Проблемы с рендерингом через JavaScript приводят к нехватке контента

Риски фреймворков

  • Одностраничные приложения (SPA) на React/Vue: если рендеринг не происходит на сервере, Google индексирует только 23% DOM-элементов
  • Ленивая загрузка изображений (Lazy Load): 51% изображений на мобильных устройствах не загружаются

Реальный случай

Интернет-магазин использует Vue для динамического рендеринга цен и характеристик, из-за чего средняя длина контента, индексированного Google, составляет только 87 символов (при нормальной длине более 1200 символов), и коэффициент конверсии упал на 64%

Экстренные меры

  1. Используйте инструмент для проверки мобильной совместимости для проверки полноты рендеринга
  2. Используйте рендеринг на сервере (SSR) или создайте статическое представление страниц для SEO с помощью Prerender.io
  3. Добавьте ключевой текст в тег <noscript> (по крайней мере H1 + 3 строки описания)

▍ Несбалансированное распределение внутренних ссылок

Пределы глубины обхода

  • Если на главной странице более 150 исходящих ссылок, средняя глубина обхода уменьшается до 2.1 уровня
  • Если глубина кликов по основным материалам больше 3 уровней, вероятность индексации падает до 38%

Стратегия улучшения структуры

✅ Используйте навигацию “хлебные крошки” с полным классификатором (например, главная > электроника > телефоны > Huawei P60)
✅ Добавьте модуль “важные страницы” на страницы списков для вручную увеличенной силы внутренних ссылок на целевые страницы
✅ Используйте Screaming Frog для обнаружения сиротских страниц (Orphan Pages), которые не имеют входящих ссылок, и связывайте их внизу соответствующих статей

▍ Неправильное использование тегов пагинации/canonical

Самоубийственная операция

  • Использование rel="canonical" на страницах продуктов, указывающих на главную страницу: это приводит к объединению и удалению 63% страниц
  • Отсутствие тегов rel="next"/"prev" на страницах комментариев: это снижает вес главной страницы

Фильтрация контента из-за низкого качества

Отчет о алгоритмах Google за 2023 год подтверждает, что 61% страниц с плохой индексацией не были проиндексированы из-за проблем с качеством контента

Когда сходства страниц превышают 32%, вероятность индексации падает до 41%, а страницы, загружающиеся более 2.5 секунд на мобильных устройствах, также теряют приоритет в обходе.

Дублированный контент разрушает доверие

Пределы черных списков в отрасли

  • Если страницы, созданные по той же шаблонной странице (например, страницы продуктов), имеют более 32% сходства, вероятность индексации падает до 41%
  • Когда сходство в абзацах превышает 15% по данным Copyscape, страницы объединяются в индекс

Реальный случай

Интернет-магазин оптовой продажи одежды создал 5200 страниц продуктов с одинаковыми описаниями. Однако Google проиндексировал только главную страницу (с предупреждением “Альтернативная страница” в Search Console), и органический трафик снизился на 89% за неделю

Основное решение

  1. Используйте библиотеку difflib в Python для вычисления сходства страниц и удаления страниц с более чем 25% дублированного контента
  2. Для добавления необходимых страниц с похожим контентом (например, страницы для городов), добавьте уникальное описание в тег <meta name="description">
  3. Добавьте тег rel="canonical" на страницы с дублированным контентом, чтобы указать основную версию
html
<link rel="canonical" href="https://example.com/product-a?color=red" />  

▍ Производительность загрузки превышает допустимый предел

Core Web Vitals – Критический предел

  • FCP (First Contentful Paint) на мобильных устройствах > 2,5 секунды → Снижение приоритета обхода
  • CLS (Cumulative Layout Shift) > 0,25 → Задержка индексации увеличивается в 3 раза

Урок

Один новостной сайт не сжал изображения на главном экране (средний размер 4,7 МБ), что привело к тому, что LCP (Largest Contentful Paint) на мобильных устройствах составил 8,3 секунды, и 12 000 статей были помечены Google как “контент низкого качества”.

Список для быстрой оптимизации

✅ Использовать формат WebP вместо PNG/JPG, сжимать массово с помощью Squoosh до ≤150KB
✅ Загружать основной CSS встроенным способом, загружать несущественный JS асинхронно (добавлять атрибуты async или defer)
✅ Хостить сторонние скрипты в localStorage для сокращения внешних запросов (например, использовать GTM для хостинга Google Analytics)

▍ Отсутствие структурированных данных приводит к снижению приоритета

Правила взвешивания обхода

  • Страницы с FAQ-схемой → Ускорение индексации на 37%
  • Отсутствие структурированных меток → Время ожидания в очереди на индексацию увеличивается до 14 дней

Пример

Медицинский сайт добавил метки подробностей болезни MedicalSchema на странице статьи, что позволило увеличить покрытие индексации с 55% до 92%, а рейтинг длинных ключевых слов повысился на 300%.

Практический код

html
<script type="application/ld+json">  
{  
  "@context": "https://schema.org",  
  "@type": "FAQPage",  
  "mainEntity": [{  
    "@type": "Question",  
    "name": "Как улучшить индексацию в Google?",  
    "acceptedAnswer": {
"@type": "Answer",  
"text": "Оптимизация структуры карты сайта и скорости загрузки страниц"  
}  
}]  
}  
</script>  

Конфигурация сервера влияет на эффективность обхода

 

Злоупотребление параметром Crawl-delay

Механизм противодействия Googlebot

  • При установке Crawl-delay: 10 → максимальное количество страниц, которые бот может обрабатывать в день, снижается с 5000 до 288
  • В стандартном состоянии без ограничений → Googlebot обрабатывает в среднем 0,8 страницы в секунду (с учетом нагрузки на сервер, скорость регулируется автоматически)

Реальный пример

Один форум установил Crawl-delay: 5 в файле robots.txt, чтобы избежать перегрузки сервера, что привело к снижению количества страниц, которые Google обрабатывает ежемесячно, с 820 000 до 43 000, с задержкой в индексировании нового контента в 23 дня.

Стратегия исправления

  1. Удалить инструкцию Crawl-delay (Google официально игнорирует этот параметр)
  2. Использовать ограничения для конкретных ботов, например Googlebot-News
  3. Настроить умное ограничение скорости в Nginx:
nginx
# Разрешить только Googlebot и Bingbot
limit_req_zone $anti_bot zone=googlerate:10m rate=10r/s;  

location / {  
    if ($http_user_agent ~* (Googlebot|bingbot)) {  
        limit_req zone=googlerate burst=20 nodelay;  
    }  
}  

Неправильная блокировка диапазонов IP

Особенности диапазонов IP Googlebot

  • Диапазон IPv4: 66.249.64.0/19, 34.64.0.0/10 (добавлено в 2023 году)
  • Диапазон IPv6: 2001:4860:4801::/48

Пример ошибки

Один интернет-магазин заблокировал диапазон IP 66.249.70.* через брандмауэр Cloudflare (ошибочно приняв за бот-атаку), что привело к тому, что Googlebot не мог индексировать страницы в течение 17 дней подряд, и индекс упал на 62%.
Добавить правило в брандмауэр Cloudflare: (ip.src in {66.249.64.0/19 34.64.0.0/10} and http.request.uri contains "/*") → Allow

Блокировка критически важных ресурсов для рендеринга

Список блокировки

  • Блокировка *.cloudflare.com → Не позволяет загружать 67% CSS/JS
  • Блокировка Google Fonts → Процент сбоев в мобильной верстке достигает 89%

Пример

Одна SAAS-платформа заблокировала домен jquery.com, что вызвало ошибку JS при рендеринге страницы Googlebot, и процент разбора HTML-страницы документации сократился до 12%.

Решение для разблокировки

1. Добавить в белый список в конфигурации Nginx:

nginx
location ~* (jquery|bootstrapcdn|cloudflare)\.(com|net) {
allow all;
add_header X-Static-Resource "Unblocked";
}  

2. Добавить атрибут crossorigin="anonymous" для асинхронно загружаемых ресурсов:

html
<script src="https://example.com/analytics.js" crossorigin="anonymous">script> 

Тайм-аут ответа сервера

Порог терпимости Google

  • Время ответа > 2000ms → вероятность досрочного завершения сессии повышается на 80%
  • Обработка запросов в секунду < 50 → бюджет на индексацию уменьшается на 30%

Пример сбоя

Один сайт на WordPress не включил OPcache, из-за чего запросы к базе данных занимали до 4,7 секунд, что привело к увеличению тайм-аутов Googlebot до 91% и остановке индексации.

Оптимизация производительности
1. Оптимизация конфигурации PHP-FPM (увеличение параллельных запросов в 3 раза):

ini

pm = dynamic
pm. max_children = 50
pm. start_servers = 12
pm. min_spare_servers = 8
pm. max_spare_servers = 30

2. Принудительная оптимизация индекса MySQL:

sql

ALTER TABLE wp_posts FORCE INDEX (type_status_date);

Используя вышеуказанный метод, вы можете поддерживать разницу индекса стабильной и не превышающей 5%.
Если вы хотите увеличить скорость индексации Google, обратитесь к нашему GPC Crawler Pool.

Picture of Don Jiang
Don Jiang

SEO本质是资源竞争,为搜索引擎用户提供实用性价值,关注我,带您上顶楼看透谷歌排名的底层算法。

最新解读