Дизайн интернет-магазина в подарок. Экономия 5000 грн!

В последнее время, клиенты Хорошопа все чаще обращаются к нам с проблемой, которая связана с ошибкой обработки catalog-sitemap.xml на стороне Google Search Console. Проблема возникает, как правило, на новых сайтах или тех, которые только зарегистрировались и подтвердили права на сайт в Google Search Console.

Специалисты платформы Хорошоп детально изучили проблему и делятся с вами своими выводами про ее решение.

Происхождение проблемы

Проблему можно увидеть при загрузке индексного файла sitemap.xml, который содержит в себе, кроме прочих, файлы ссылок sitemap каталогов, например catalog-sitemap.xml, catalog-sitemap-01.xml, catalog-sitemap-02.xml и т.д. Другой причиной может стать загрузка файлов catalog-sitemap в Search Console напрямую, после чего появляется ошибка «Не удалось получить».

Исследование проблемы

Мы провели комплексное исследование на примере 15 рабочих проектов на Хорошоп, а также протестировали сайты на нескольких других платформах. Для лучшей точности, мы проверили сразу несколько гипотез, которые, на наш взгляд, могут создавать проблему.

  1. Меняли формат файла с XML на RSS и TXT, соответственно вносили изменения в файл согласно документации Google. Результат — статус не поменялся.
  2. Изменяли количество элементов в файлах. Результат — частичный успех. При кардинальных изменениях в файле, например уменьшении количества ссылок, возможно решить проблему, но решение не повторяется регулярно.
  3. Изменяли размер файла sitemap, который, по документации Google, должен весить не больше 50 Мб. Получали частичный успех, но, как и в прошлом пункте, это не является стабильным решением. Некоторые большие проекты, где sitemap занимает всего 40 Мб, консоль принимает, а маленькие проекты, где sitemap размером 10 Мб, — нет. Но если небольшой размер sitemap дополнительно сократить до 5-7 Мб, то файл принимается успешно. Впрочем, опять же, не всегда.
  4. Удаляли из sitemap расширенный синтаксис, то есть адреса изображений товаров. Это не дало никакого позитивного результата.
  5. На протяжении всего тестирования мы проверяли логи серверов. Каждый раз, во во время добавления catalog-sitemap.xml в Google Search Console, мы видели, что Googlebot запрашивает файл «Get» и получает код ответа 200. Но мы все равно регулярно наблюдали в консоли ошибку «не получено».

В результате нашего исследования, мы не обнаружили никакой связи между добавлением или удалением расширенного синтаксиса в sitemap, его форматом, размером и ошибкой в Google Search Console.

Наши наблюдения

На протяжении последних нескольких дней, мы наблюдаем ситуацию, когда catalog-sitemap наших клиентов начал частично приниматься в консоли. Вот один из нескольких подобных кейсов. 6 октября мы добавили в консоль индексный sitemap. Консоль не приняла четыре из четырех файлов.

После этого мы не вносили никаких изменений в логику формирования файлов, но через месяц увидели, что консоль приняла их. Это лишь подтверждает то, что проблема на стороне Google.

Реакция сообщества Google

В Google Search Console нет поддержки клиентов, поэтому мы сделали пост на форуме Google Search Help. Мы спросили: «Во время добавления sitemap в консоль выдает ошибку Sitemap could not be read. Статус не получено. Не удалось обработать файл sitemap. В чем может быть причина?». На наш вопрос мы получили ответ, что «Про баг знают и его решают».

Вывод

Протестировав все возможные варианты решения проблемы, мы не нашли кореляции между изменениями в sitemap и их принятием в консоли. Все изученные нами факты указывают на то, что проблема на стороне Google и единственное, что можно сделать — это ждать, пока компания ее решит.

Напоминаем, что в документации Google про sitemap указано, что компания не гарантирует загрузки файла системой или что данные из него будут использованы при сканировании сайта. Также в справке Google указано, что если на сайте хорошо реализована система внутренних ссылок на все важные страницы, то поисковые роботы смогут их найти и без sitemap.

Новый комментарий
Оценка