Robots.txt — это текстовый файл, который используют владельцы сайта для взаимодействия с поисковым роботом при индексации сайта. Robots.txt размещается в корневом каталоге сайта и содержит инструкции для поисковых роботов. Изучив файл, робот узнает какие страницы сайта должны быть просканированы, а какие — наоборот не стоит индексировать. Robots.txt позволяет владельцам сайтов и SEO-специалистам управлять индексацией и контролировать доступ поискового робота к конфиденциальным или устаревшим страницам. Также файл поможет указать на дубли страниц, чтобы предотвратить их индексацию и не наражаться на санкции поисковой системы.
Файл robots.txt содержит следующие инструкции для поисковых роботов:
-
user-agent — указывает поисковым роботам для какой именно поисковой системы действуют инструкции. Например, User-agent: Googlebot.
-
disallow — указывает поисковому роботу какие страницы необходимо исключить из индексации. Например, Disallow: /private/ означает, что папка private должна быть исключена из индексации.
-
allow — указывает поисковому роботу какие страницы можно индексировать. Например, Allow: /public/ означает, что папка public может быть индексирована.
-
sitemap — указывает на расположение карты сайта на сайте. Например, Sitemap: https://www.example.com/sitemap.xml.
Кроме того, в файл robots.txt могут добавляться комментарии, которые начинают с символа # — они не будут использоваться поисковыми роботами и предназначаются для людей. Robots.txt — это важный элемент поисковой оптимизации веб-сайта, поэтому SEO-специалисты уделяют ему особое внимание.