Запрет индексации в robots.txt: как скрыть страницы от поисковиков правильно

У любого сайта есть страницы, которые не должны попадать в поисковую выдачу. Админ-панели, личные кабинеты, тестовые разделы или дубли контента — все это технический «мусор», который может навредить продвижению, если окажется в поиске. Главный инструмент для управления доступом поисковых роботов — файл robots.txt.

Содержание

Однако вокруг него существует много мифов. Многие веб-мастера считают, что достаточно прописать правило в robots.txt, чтобы страница исчезла из поиска. Это не всегда так. В этой статье мы разберем, как правильно запрещать индексацию, в чем разница между сканированием и индексацией, и как не допустить критических ошибок.

Не индексировать сайт: для чего это нужно?

Полная или частичная скрытость сайта от поисковых систем — это нормальная практика. Вот основные причины, зачем это делают:

  1. Защита служебных разделов. Страницы входа в админку (/admin/, /wp-admin/), корзины покупок, личные кабинеты пользователей не должны быть видны посторонним.
  2. Борьба с дублями. Поисковики не любят одинаковый контент. Страницы с параметрами сортировки (например, ?sort=price), версии для печати илиUTM-метками нужно закрывать, чтобы не размывать вес сайта.
  3. Сайты на стадии разработки. Если вы делаете сайт на поддомене (staging.example.com), его нужно скрыть до момента официального запуска, чтобы в поиске не появилось «битое» состояние.
  4. Экономия краулингового бюджета. У поисковых роботов есть лимит времени на сканирование вашего сайта. Если робот тратит его на бесполезные страницы, важные материалы могут не успеть проиндексироваться.

Плагин для google Хром — head of seo tools поможет проверить индексацию

Чем сканирование отличается от индексации

Это самый важный момент, который часто понимают неправильно.

  • Сканирование (Crawling) — это процесс, когда робот поисковой системы заходит на страницу, считывает её HTML-код и переходит по ссылкам, которые на ней находятся.
  • Индексация (Indexing) — это процесс добавления содержимого страницы в базу данных поисковика. Только проиндексированные страницы могут появиться в результатах поиска.

Взаимосвязь:
Обычно робот сначала сканирует страницу, а потом решает, индексировать ли её. Однако страница может быть проиндексирована даже без глубокого сканирования, если на нее ведут ссылки с других авторитетных ресурсов. В таком случае в поиске может отображаться только URL страницы без описания.

Как запретить сканирование сайта (Работа с robots.txt)

Файл robots.txt — это текстовый документ, который лежит в корне сайта (например, site.com/robots.txt). Он содержит инструкции для роботов.

Основные директивы:

  • User-agent: имя робота, для которого предназначены правила (например, Googlebot, Yandex или * для всех).
  • Disallow: запрет на доступ к указанному пути.
  • Allow: разрешение на доступ (имеет приоритет над Disallow у Google).
  • Sitemap: ссылка на карту сайта (xml).

Пример базовой структуры:

User-agent: *
Disallow: /admin/
Allow: /
Sitemap: https://site.com/sitemap.xml

Запрет сканирования каталога и разделов

Чаще всего нужно закрыть не весь сайт, а конкретные папки.

  1. Закрытие целой папки:
    Чтобы скрыть весь раздел «Админка», используйте слэш в конце пути: Disallow: /admin/ Это запретит доступ ко всем файлам внутри этой директории.
  2. Использование звездочки (*):
    Звездочка означает любую последовательность символов. Это удобно для блокировки файлов определенных типов: Disallow: /*.pdf$ Знак доллара $ указывает на конец строки. Эта команда запретит индексацию всех PDF-файлов.
  3. Параметры URL:
    Если нужно закрыть страницы с параметрами сортировки:
    text Disallow: /*?sort=

Закрытие конкретной страницы от сканирования в robots.txt

Вы можете запретить доступ к отдельному файлу или статье:

Disallow: /articles/secret-post.html

Важный нюанс:
Если вы закрываете страницу через Disallow, поисковый робот не зайдет на неё. Следовательно, он не увидит никаких запретов на индексацию, которые могут находиться внутри кода этой страницы.
Если на эту закрытую страницу ведут ссылки с других сайтов, она все равно может попасть в индекс поисковика (просто как ссылка без сниппета). Поэтому robots.txt — это инструмент для запрета сканирования, а не гарантированный способ удаления из индекса.

Как применить метатег noindex (Правильный запрет индексации)

Если ваша цель — гарантированно убрать страницу из поиска, одного robots.txt недостаточно. Нужно использовать метатег noindex.

Внимание: С сентября 2019 года Google игнорирует директиву noindex внутри файла robots.txt. Яндекс пока поддерживает, но лучшим практикой считается использование HTML-тега.

Как правильно сделать:

  1. Не закрывайте страницу в robots.txt. Робот должен иметь возможность зайти на неё (Allow или отсутствие Disallow).
  2. Добавьте метатег в раздел <head> страницы:
    html <meta name="robots" content="noindex">
    Или для конкретного поисковика:
    html <meta name="googlebot" content="noindex">
  3. Для не-HTML файлов (PDF, изображения) используйте HTTP-заголовок:
    text X-Robots-Tag: noindex

Идеальная связка для удаления из поиска:
Разрешите сканирование в robots.txt, чтобы робот зашел на страницу, увидел метатег noindex и исключил её из индекса. После того как страница исчезнет из выдачи, можно закрыть её в robots.txt для экономии бюджета.

Проверка и валидация настроек

После внесения изменений обязательно проверьте файл.

  1. Яндекс.Вебмастер: В разделе «Инструменты» → «Анализ robots.txt» можно загрузить файл и проверить правила для конкретных URL.
  2. Google Search Console: Инструмент «Проверка файла robots.txt» покажет синтаксические ошибки и предупреждения.
  3. Онлайн-валидаторы: Существует множество бесплатных сервисов (например, от PR-CY или SmallSEOTools), которые проверяют синтаксис.
  4. Ручная проверка: Введите в поиске site:example.com/page-url. Если страница не показывается — она не в индексе.

Типичные ошибки при настройке

  1. Блокировка CSS и JS файлов.
    Если вы закроете доступ к папкам /css/ или /js/, поисковик не сможет корректно отобразить сайт в режиме мобильной индексации. Это может ухудшить позиции.
    text # ПЛОХО Disallow: /css/ # ХОРОШО Allow: /css/
  2. Случайный запрет всего сайта.
    Ошибка Disallow: / без исключений закроет весь сайт от индексации. Используйте это только для скрытия сайта на стадии разработки.
  3. Конфликт инструкций.
    Не используйте устаревшую директиву Noindex: /page.html в файле robots.txt для Google. Используйте только HTML-метатеги.
  4. Ожидание мгновенного результата.
    Поисковикам нужно время на переобход. Страница может оставаться в выдаче от нескольких дней до нескольких недель после внедрения noindex.

Вывод

Файл robots.txt — это мощный инструмент управления доступом роботов, но его возможности не безграничны. Главное правило, которое нужно запомнить: Disallow запрещает вход роботу, но не гарантирует удаление из поиска.

Для надежного скрытия страниц используйте комбинацию методов:

  1. Для служебных данных (админки) — закрывайте доступ в robots.txt и ставьте пароль.
  2. Для дублей и ненужных страниц в поиске — разрешайте сканирование, но ставьте метатег noindex.

Регулярно проверяйте свой файл robots.txt через инструменты веб-мастеров, чтобы убедиться, что вы случайно не скрыли от поисковиков важный контент. Грамотная настройка индексации — залог чистого и эффективного присутствия вашего сайта в поисковой выдаче.

Запрет индексации в robots.txt