Краулеры Google сканируют и индексируют первые 15 МБ HTML-файла страницы

Автор На чтение 2 мин Обновлено 28.06.2022

В обновленной справке Googlebot появилось указание размера файла, который сканируют боты: «Googlebot сканирует первые 15 МБ ‎‎HTML-файла или поддерживаемого текстового файла‎‎. Все ресурсы, ссылки на которые указаны в HTML (изображения, видео, CSS и JavaScript), извлекаются отдельно. После первых 15 МБ файла Googlebot прекращает сканирование и рассматривает для индексации только первые 15 МБ файла. Ограничение размера файла применяется к несжатым данным. У других краулеров могут быть другие ограничения».

Джон Мюллер, сотрудник Поиска Google, отвечая на вопрос SEO-специалиста Саннидхи (Sannidhi) в Твиттере, пояснил, что лимит накладывается только на HTML-файл, а встроенные элементы не являются его частью:

Проверить, какую часть контента сканирует и ранжирует бот Гугл, можно с помощью инструмента проверки URL-адресов в Google Search Console.

Комментарий эксперта:

«Поработав с большим количеством различных сайтов могу отметить, что средний размер HTML-документа редко превышает 2-3 МБ, поэтому беспокоиться насчет данного нововведения не стоит. В то же время, SEO-специалисты должны знать эту особенность работы поискового робота Google и проверять размер HTML-страниц у всех новых сайтов. Сделать это можно с помощью Screaming Frog SEO Spider или любого другого робота-парсера».

Главный технолог SEO-эксперт компании SEO.RU
Полина Маенкова