Поисковые роботы сканируют миллионы страниц в сутки, и чтобы они не тратили время (и ваш crawl budget) на ненужные ресурсы, необходимо правильно управлять тем, что им показывать. В этом помогают два мощных инструмента: файл robots.txt
и заголовок X-Robots-Tag
.
Что такое robots.txt
Это текстовый файл в корне сайта (site.ru/robots.txt)
, который указывает, какие разделы можно или нельзя сканировать поисковым роботам.
User-agent: *
Disallow: /admin/
Disallow: /tmp/
Allow: /public/
Важно: robots.txt запрещает сканирование, но не индексацию. Страница всё равно может появиться в поиске, если на неё есть внешние ссылки.
Что такое X-Robots-Tag
Это HTTP-заголовок, позволяющий управлять индексацией любых типов файлов, включая PDF, изображения, видео и другие медиа.
Пример для Apache (.htaccess):
<FilesMatch "\.(pdf|doc|xls)$">
Header set X-Robots-Tag "noindex, noarchive, nosnippet"
</FilesMatch>
Пример для Nginx:
location ~* \.(pdf|doc|xls)$ {
add_header X-Robots-Tag "noindex, noarchive, nosnippet";
}
Когда использовать X-Robots-Tag, а когда robots.txt
Сценарий | Что использовать |
---|---|
Нужно скрыть PDF или DOC | X-Robots-Tag |
Запретить сканирование /admin/ | robots.txt |
Скрыть старую страницу от индексации, но разрешить сканирование | X-Robots-Tag: noindex |
Запретить индексацию изображений | X-Robots-Tag для картинок |
Типичные ошибки
- ❌ Disallow + noindex: если в robots.txt запрещено сканирование, робот не увидит мета-тег noindex.
- ❌ Запрет CSS/JS: блокировка стилей и скриптов может нарушить рендеринг страниц и поведенческие сигналы.
- ❌ Нет X-Robots-Tag у медиа: документы могут появиться в выдаче, если не задать noindex заголовком.
Лучшие практики
- Проверяйте robots.txt через инструмент Google Search Console.
- Для PDF, изображений и видео используйте X-Robots-Tag.
- Обновляйте robots.txt при изменениях структуры сайта.
- Добавьте ссылку на sitemap в robots.txt:
Sitemap: https://site.ru/sitemap.xml