Читайте нашу статью, чтобы узнать как работает индексация и что нужно для попадания страниц вашего сайта в поисковую выдачу.
Индексация сайта — это процесс при котором информация о странице и её содержимом попадают в базу данных поисковой системы (индекс). Полученная информация обрабатывается алгоритмами для последующего ранжирования и отображения в поисковой выдаче.
Когда пользователь делает поисковой запрос, например в Google, поиск результатов происходит по заранее собранной базе данных. Таким образом, чтобы страницы вашего сайта могли отображаться на странице выдачи, — они должны быть проиндексированы.
В этой статье мы расскажем как управлять индексацией сайта и улучшить индексацию страниц.
Сканирование сайта
Прежде, чем поисковая система сможет индексировать страницы, — их необходимо найти и просканировать. Обнаружение страниц поисковым ботом происходит путем перехода по ссылкам с уже известных ему страниц, а также через добавление сайта в бесплатный сервис Google Search Console.
Для того, чтобы бот поисковой системы смог получить данные о страницах вашего сайта — они должны быть открытыми для сканирования. Для получения доступа к сканированию нужно задать настройки в файле robots.txt.
Например, когда вы создаете интернет магазин на Хорошопе, сразу после регистрации вы получаете доступ к демо версии вашего магазина. В robots.txt сайта прописана директива запрещающая сканирование всех страниц демо сайта.
После подключения своего домена, набор директив самостоятельно изменится так, что все основные страницы сайта будут открыты для сканирования поисковым ботом. Вам не нужно будет ничего делать с файлом и настройками, потому что все происходит автоматически и исключает возможность допустить ошибку. В случае с другими платформами и CMS — рекомендуем к ознакомлению документацию Google как создавать файл robots.txt.
Как открыть страницы сайта для индексации
Важное примечание: разрешено сканировать не равно разрешено индексировать. Для индексации страницы должны быть соблюдены несколько условий. Разрешенная для индексации страница — это каноническая страница, которая отдает ответ сервера код 200 ОК и не запрещена для индексации правилом мета тега “robots”. Код 200 ОК — это HTTP ответ, который возвращает сервер на запрос пользователя и означает, что запрос выполнен успешно, то есть страница найдена и доступна к просмотру.
Мета-тег "robots" позволяет установить настройки на уровне страницы, которые определяют можно ли индексировать страницу и как она может быть отображена в результатах поиска Google. Мета-тег "robots" размещается в разделе
на соответствующей странице и учитывается только поисковыми роботами. Для того, чтобы разрешить поисковому роботу индексировать страницу должна быть задана настройка: mеta name="robots" content="indеx" или meta name="robots" content="all". Последний вариант настройки указывает поисковому боту на то, что мы разрешаем ему переходить по ссылкам размещенным на странице.Как улучшить индексацию
Даже если выполнить все описанные ранее действия — это не гарантирует, что страница будет проиндексирована, о чем прямо указано в справке Google. Однако существуют способы, которыми можно значительно повысить шансы страниц на индексирование и ускорить индексацию сайта в целом.
Google Search Console
Добавление сайта в сервис для вебмастера Google Search Console даст доступ к ряду инструментов, которые будут полезны для понимания того, как с вашим сайтом взаимодействуют пользователи и поисковая система. Сразу после добавления сайта в GSC, некоторое время данные о сайте не будут отображаться, так как будет происходить их сбор.
Сначала рекомендуется воспользоваться инструментом «Файлы Sitemap», который находится на панели «Индексирование».
С помощью этого инструмента необходимо добавить в консоль ссылку на xml карту сайта. Это поможет системе сразу получить перечень наиболее важных страниц вашего сайта. На основании этого списка будет составлена очередь на сканирование и индексирование.
Второй инструмент, который будет полезным для индексации называется «Проверка URL». Он находится в верхней части интерфейса консоли:
Инструмент отображает актуальные состояние страницы.
- Статус индексации.
- Удобство для мобильных устройств.
- Данные о том, как бот впервые нашел страницу и каноническая ли она.
- Данные об обнаруженных на странице элементах, например, логотипах.
- Как бот видит страницу: в виде html кода, скриншота и прочих данных.
Кроме этого инструмент позволяет запросить индексацию страницы. Это так же не гарантирует, что страница проиндексируется, но после отправки запроса она получит высший приоритет и будет обработана в первую очередь.
Данный инструмент имеет лимит на отправку запросов, до 10-15 в сутки. Рекомендуем использовать лимиты рассудительно — отправлять на индексацию страницы с контентом, который может быть потенциально украден. Например, вы написали большую экспертную статью-обзор для товара вашего интернет-магазина. Такую страницу нужно проиндексировать как можно быстрее, пока кто-то из конкурентов, или просто недобросовестных пользователей, не украли текст к себе на сайт. Если у них на сайте страница проиндексируется раньше чем ваша — вы можете получить жалобу и Google не допустит вашу страницу в выдачу.
Также в консоли есть инструмент «Страницы» на панели «Индексирование». Это важнейший и полезный инструмент, который показывает количество проиндексированных страниц. Здесь же вы узнаете о страницах, которые были обнаружены, но не были проиндексированы. Важность инструмента именно в том, что можно узнать по какой причине страница не была проиндексирована.
Подробнее о причинах можно узнать в справке консоли в разделе «Почему страницы не индексируются». Отдельно остановимся на двух причинах и рассмотрим как они описаны в справке.
- Страница просканирована, но пока не проиндексирована. Сообщение означает, что мы просканировали страницу, но пока не добавили ее в индекс Google. В дальнейшем она может быть проиндексирована, а может и остаться в текущем состоянии; заново отправлять запрос на сканирование этого URL не нужно.
- Обнаружена, не проиндексирована. Означает, что мы нашли страницу, но пока не добавили ее в индекс Google. Обычно это объясняется тем, что роботу Google не удалось просканировать сайт, поскольку это могло привести к чрезмерной загрузке ресурса, и сканирование было перенесено на более поздний срок. В связи с этим в отчете дата последнего сканирования отсутствует.
Из описания первой причины может быть не совсем понятно в чем именно заключается проблема. Исходя из нашего опыта, кроме технически непригодных для индексации страниц, например неканоническая версия, — в этот отчет попадают малополезные страницы с точки зрения поискового бота. Например, у сайтов интернет-магазинов в этот отчёт часто попадают страницы карточек товаров, потому что такие страницы содержат неуникальный контент. Изображения товаров, описания и цену продавец получает от поставщика, как и многие другие магазины. Google не видит смысла индексировать ваши страницы, если ваш контент ничем не отличается от сотен других сайтов.
Другой пример — карточки товаров-модификации. Например, чехол для телефона неизвестного производителя и семь вариантов этого товара в разных цветах. Такие страницы тоже не имеют никакой ценности и, скорее всего, никогда не будут проиндексированы.
Исключением будут, например, карточки товаров айфона. Его ищут по различным запросам, которые связаны с модификациями устройства: память и цвет.
Вторая причина — следствие из вышеописанной. Алгоритмы поискового бота по набору признаков определили тип страницы и на них не было даже выделено вычислительных мощностей для сканирования. Google практически безошибочно добавляет в список «Обнаружена, не проиндексирована» страницы, как те же карточки товаров, которые не представляют ценности для поисковой системы.
Ресурсы поисковой системы ограничены и в последние годы, с увеличением количества сайтов и страниц на единицу времени, — Google хуже их индексирует страницы товара. Для того, чтобы Google индексировал страницы карточек товара они должны иметь ценность: уникальные изображения товара, видео, описание, максимально полные характеристики, отзывы и т.д.
Контент
Одной из самых важных составляющих успешной индексации и дальнейшего ранжирования страницы — это контент на ней. Алгоритмы поисковой системы любят полезный контент, который удовлетворяет запрос пользователя. Кроме этого Google ценит обновляемый контент. Например, статья со временем может потерять актуальность и если ее не обновлять, то она может сначала потерять позиции, а потом вовсе выпасть из индекса. Во избежание этого контент нужно время от времени актуализировать.
Также старайтесь регулярно добавлять на свой сайт полезные страницы. Алгоритмы будут видеть, что сайт не заброшен и вебмастер занимается его улучшением, наполняя новым контентом. Google будет лучше индексировать новые и существующие страницы такого сайта.
Используйте SEO
Для успешного продвижения сайта в поисковой системе, в том числе индексации, нужна оптимизация ресурса — SEO. Лучше всего привлечь специалиста, который изучит сайт, нишу, конкурентов и сможет дать практические рекомендации по улучшению ресурса. Для улучшения индексации SEO-специалист может использовать сразу несколько приемов.
- Проработать семантическое ядро и дать рекомендации по созданию новых и/или оптимизации существующих страниц. Релевантные поисковым запросам страницы индексируются намного лучше, чем те, которые непонятно по каким запросам отображать в выдаче.
- Оптимизировать meta title, заголовки и контент на страницах таким образом, чтобы поисковому боту было максимально просто понять содержание.
- Сделать правильную анкорную внутреннюю перелинковку. Страницы, которые получают больше ссылок на себя, считаются ботом приоритетнее других и индексируются лучше.
- Следить за техническим состоянием сайта и своевременно исправлять найденные ошибки, которые могут препятствовать сканированию и индексированию страниц сайта.
- Проработать другие факторы, которые напрямую или косвенно могут улучшить индексацию сайта. Например, авторитетность и трастовость сайта, обратные ссылки, уникальность контента, предотвращение каннибализации ключевых слов и так далее.
Вывод
Индексация сайта — это важнейшая часть SEO продвижения. Непроиндексированные страницы не могут быть источником органического трафика, поэтому необходимо следовать всем рекомендациям, чтобы они попадали в индекс поисковых систем.