Некоторые владельцы сайтов сталкиваются с ошибкой обработки catalog-sitemap.xml на стороне Google Search Console. Причины этой ошибки неочевидны и многим сложно понять, как реагировать на нее. Мы провели комплексное исследование проблемы и постарались разобраться в ней. Читайте, чтобы узнать результаты нашей работы.
В последнее время, клиенты Хорошопа все чаще обращаются к нам с проблемой, которая связана с ошибкой обработки catalog-sitemap.xml на стороне Google Search Console. Проблема возникает, как правило, на новых сайтах или тех, которые только зарегистрировались и подтвердили права на сайт в Google Search Console.
Специалисты платформы Хорошоп детально изучили проблему и делятся с вами своими выводами про ее решение.
Происхождение проблемы
Проблему можно увидеть при загрузке индексного файла sitemap.xml, который содержит в себе, кроме прочих, файлы ссылок sitemap каталогов, например catalog-sitemap.xml, catalog-sitemap-01.xml, catalog-sitemap-02.xml и т.д. Другой причиной может стать загрузка файлов catalog-sitemap в Search Console напрямую, после чего появляется ошибка «Не удалось получить».
Исследование проблемы
Мы провели комплексное исследование на примере 15 рабочих проектов на Хорошоп, а также протестировали сайты на нескольких других платформах. Для лучшей точности, мы проверили сразу несколько гипотез, которые, на наш взгляд, могут создавать проблему.
- Меняли формат файла с XML на RSS и TXT, соответственно вносили изменения в файл согласно документации Google. Результат — статус не поменялся.
- Изменяли количество элементов в файлах. Результат — частичный успех. При кардинальных изменениях в файле, например уменьшении количества ссылок, возможно решить проблему, но решение не повторяется регулярно.
- Изменяли размер файла sitemap, который, по документации Google, должен весить не больше 50 Мб. Получали частичный успех, но, как и в прошлом пункте, это не является стабильным решением. Некоторые большие проекты, где sitemap занимает всего 40 Мб, консоль принимает, а маленькие проекты, где sitemap размером 10 Мб, — нет. Но если небольшой размер sitemap дополнительно сократить до 5-7 Мб, то файл принимается успешно. Впрочем, опять же, не всегда.
- Удаляли из sitemap расширенный синтаксис, то есть адреса изображений товаров. Это не дало никакого позитивного результата.
- На протяжении всего тестирования мы проверяли логи серверов. Каждый раз, во во время добавления catalog-sitemap.xml в Google Search Console, мы видели, что Googlebot запрашивает файл «Get» и получает код ответа 200. Но мы все равно регулярно наблюдали в консоли ошибку «не получено».
В результате нашего исследования, мы не обнаружили никакой связи между добавлением или удалением расширенного синтаксиса в sitemap, его форматом, размером и ошибкой в Google Search Console.
Наши наблюдения
На протяжении последних нескольких дней, мы наблюдаем ситуацию, когда catalog-sitemap наших клиентов начал частично приниматься в консоли. Вот один из нескольких подобных кейсов. 6 октября мы добавили в консоль индексный sitemap. Консоль не приняла четыре из четырех файлов.
После этого мы не вносили никаких изменений в логику формирования файлов, но через месяц увидели, что консоль приняла их. Это лишь подтверждает то, что проблема на стороне Google.
Реакция сообщества Google
В Google Search Console нет поддержки клиентов, поэтому мы сделали пост на форуме Google Search Help. Мы спросили: «Во время добавления sitemap в консоль выдает ошибку Sitemap could not be read. Статус не получено. Не удалось обработать файл sitemap. В чем может быть причина?». На наш вопрос мы получили ответ, что «Про баг знают и его решают».
Вывод
Протестировав все возможные варианты решения проблемы, мы не нашли кореляции между изменениями в sitemap и их принятием в консоли. Все изученные нами факты указывают на то, что проблема на стороне Google и единственное, что можно сделать — это ждать, пока компания ее решит.
Напоминаем, что в документации Google про sitemap указано, что компания не гарантирует загрузки файла системой или что данные из него будут использованы при сканировании сайта. Также в справке Google указано, что если на сайте хорошо реализована система внутренних ссылок на все важные страницы, то поисковые роботы смогут их найти и без sitemap.
Спасибо, хорошая статья.