Robots.txt — це текстовий файл, який використовують власники сайту для взаємодії з пошуковим роботом під час індексації сайту. Robots.txt розміщується в кореневому каталозі сайту та містить інструкції для пошукових роботів. Вивчивши файл, робот дізнається які сторінки сайту мають бути проскановані, а які навпаки не варто індексувати. Robots.txt дозволяє власникам сайтів та SEO-фахівцям керувати індексацією та контролювати доступ пошукового робота до конфіденційних або застарілих сторінок. Також файл допоможе вказати на дублі сторінок, щоб запобігти їх індексації і не наражатися на санкції пошукової системи.
Файл robots.txt містить наступні інструкції для пошукових роботів:
- user-agent — вказує пошуковим роботам для якої саме пошукової системи діють інструкції. Наприклад, User-agent: Googlebot.
- disallow — вказує пошукову роботу які сторінки необхідно виключити з індексації. Наприклад, Disallow: /private/ означає, що папка private повинна бути виключена з індексації.
- allow — вказує пошукову роботу які сторінки можна індексувати. Наприклад, Allow: /public/ означає, що папка public може бути індексована.
- sitemap — вказує на розташування карти сайту на сайті. Наприклад, Sitemap: https://www.example.com/sitemap.xml.
Крім того, у файл robots.txt можуть додаватися коментарі, які починають із символу # — вони не будуть використовуватися пошуковими роботами і призначаються для людей. Robots.txt — це важливий елемент пошукової оптимізації веб-сайту, тому SEO-фахівці приділяють йому особливу увагу.