Как роботам объяснить, что важно: тонкая настройка robots.txt и X-Robots-Tag

Как роботам объяснить, что важно

Поисковые роботы сканируют миллионы страниц в сутки, и чтобы они не тратили время (и ваш crawl budget) на ненужные ресурсы, необходимо правильно управлять тем, что им показывать. В этом помогают два мощных инструмента: файл robots.txt и заголовок X-Robots-Tag.

Что такое robots.txt

Это текстовый файл в корне сайта (site.ru/robots.txt), который указывает, какие разделы можно или нельзя сканировать поисковым роботам.

User-agent: *
Disallow: /admin/
Disallow: /tmp/
Allow: /public/

Важно: robots.txt запрещает сканирование, но не индексацию. Страница всё равно может появиться в поиске, если на неё есть внешние ссылки.

Что такое X-Robots-Tag

Это HTTP-заголовок, позволяющий управлять индексацией любых типов файлов, включая PDF, изображения, видео и другие медиа.

Пример для Apache (.htaccess):

<FilesMatch "\.(pdf|doc|xls)$">
  Header set X-Robots-Tag "noindex, noarchive, nosnippet"
</FilesMatch>

Пример для Nginx:

location ~* \.(pdf|doc|xls)$ {
  add_header X-Robots-Tag "noindex, noarchive, nosnippet";
}

Когда использовать X-Robots-Tag, а когда robots.txt

СценарийЧто использовать
Нужно скрыть PDF или DOCX-Robots-Tag
Запретить сканирование /admin/robots.txt
Скрыть старую страницу от индексации, но разрешить сканированиеX-Robots-Tag: noindex
Запретить индексацию изображенийX-Robots-Tag для картинок

Типичные ошибки

  • ❌ Disallow + noindex: если в robots.txt запрещено сканирование, робот не увидит мета-тег noindex.
  • ❌ Запрет CSS/JS: блокировка стилей и скриптов может нарушить рендеринг страниц и поведенческие сигналы.
  • ❌ Нет X-Robots-Tag у медиа: документы могут появиться в выдаче, если не задать noindex заголовком.

Лучшие практики

  • Проверяйте robots.txt через инструмент Google Search Console.
  • Для PDF, изображений и видео используйте X-Robots-Tag.
  • Обновляйте robots.txt при изменениях структуры сайта.
  • Добавьте ссылку на sitemap в robots.txt:
Sitemap: https://site.ru/sitemap.xml