Правильный Robots.txt для WordPress

Правильный Robots.txt для Wordpress

Привет друзья на связи Павел Гречко. В этой статье я расскажу вам как правильно настроить robots.txt. для WordPress и других популярных CMS. А так же более детально изучить как работает robots.txt. Так как он помогает закрывать не нужные страницы и экономить краулинговый бюджет который выделяет ПС на ваш сайт.

Robots.txt для WordPress

User-Agent: *
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /xmlrpc.php
Disallow: /template.html
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content
Allow: /wp-content/uploads/
Disallow: /tag
Disallow: /category
Disallow: /archive
Disallow: */trackback/
Disallow: */feed/
Disallow: */comments/
Disallow: /?feed=
Disallow: /?s=
Allow: /wp-content/*.css*
Allow: /wp-content/*.jpg
Allow: /wp-content/*.gif
Allow: /wp-content/*.png
Allow: /wp-content/*.js*
Allow: /wp-includes/js/
Sitemap: http://прописать ваш сайт.ru/sitemap.xml

Robots.txt для Bitrix

User-agent: *
Disallow: /*index.php$
Disallow: /bitrix/
Disallow: /auth/
Disallow: /personal/
Disallow: /upload/
Disallow: /search/
Disallow: /*/search/
Disallow: /*/slide_show/
Disallow: /*/gallery/*order=*
Disallow: /*?*
Disallow: /*&print=
Disallow: /*register=
Disallow: /*forgot_password=
Disallow: /*change_password=
Disallow: /*login=
Disallow: /*logout=
Disallow: /*auth=
Disallow: /*action=*
Disallow: /*bitrix_*=
Disallow: /*backurl=*
Disallow: /*BACKURL=*
Disallow: /*back_url=*
Disallow: /*BACK_URL=*
Disallow: /*back_url_admin=*
Disallow: /*print_course=Y
Disallow: /*COURSE_ID=
Allow: /bitrix/*.css
Allow: /bitrix/*.js
Sitemap: http://mysite.com/sitemap.xml

Robots.txt для Joomla

User-agent: *
Disallow: /administrator/
Disallow: /cache/
Disallow: /components/
Disallow: /images/
Disallow: /includes/
Disallow: /installation/
Disallow: /language/
Disallow: /libraries/
Disallow: /media/
Disallow: /modules/
Disallow: /plugins/
Disallow: /templates/
Disallow: /tmp/
Disallow: /xmlrpc/
Allow: /templates/*.css
Allow: /templates/*.js
Allow: /media/*.png
Allow: /media/*.js
Allow: /modules/*.css
Allow: /modules/*.js
Sitemap: http://mysite.com/sitemap.xml

Robots.txt для Opencart

User-agent: *
Disallow: /admin
Disallow: /cache
Disallow: /niks
Disallow: /catalog
Disallow: /download
Disallow: /export
Disallow: /system
Disallow: /index.php?route=account
Disallow: /index.php?route=account/account
Disallow: /index.php?route=checkout/cart
Disallow: /index.php?route=checkout/shipping
Disallow: /index.php?route=common/home
Disallow: /index.php?route=product/product/captcha
Disallow: /index.php?route=product/product*&manufacturer_id=
Disallow: /index.php?route=product/search
Disallow: /index.php?route=information/contact/captcha
Disallow: /index.php?route=information/information&information_id=
Disallow: /index.php?route=account/login
Disallow: /*route=account/
Disallow: /*route=account/login
Disallow: /*route=checkout/
Disallow: /*route=checkout/cart
Disallow: /*route=affiliate/
Disallow: /*route=product/search
Disallow: /*?sort=
Disallow: /*?sort
Disallow: /*&sort=
Disallow: /*?order=
Disallow: /*?order
Disallow: /*&order=
Disallow: /*?limit=
Disallow: /*&limit=
Disallow: /*?filter_name=
Disallow: /*&filter_name=
Disallow: /*?filter_sub_category=
Disallow: /*&filter_sub_category=
Disallow: /*?filter_description=
Disallow: /*&filter_description=
Disallow: /*?tracking=
Disallow: /*&tracking=
Disallow: /*?manufacturer
Disallow: /*?keyword
Sitemap: http://site.ru/sitemap.xml

Как самому настроить robots.txt

Многие CMS уже имеют файл в корне сайта по умолчанию, и поэтому вам не обязательно создавать его с нуля. Вы можете только немного его подкорректировать под свои нужды.

Шаг 1. В текстовом редакторе создайте файл с именем robots.txt и заполните его в соответствии с представленными ниже правилами. Это не конечный вариант файла robots.txt. Этот набор правил редактируется под каждый сайт отдельно и зависит от того, что нужно закрыть, а что — оставить открытым.

Шаг 2. Проверьте файл в сервисе Яндекс.Вебмастер (пункт меню Анализ robots.txt).

Шаг 3. Загрузите файл в корневую директорию вашего сайта с помощью ФТП клиента.

Шаг 4. Проверить открываться ли файл по адресу http://Вашсайт.ру/robots.txt

Что надо закрывать от индексации в robots.txt

  • страницы с личной информацией пользователей;
  • корзину и сравнение товаров;
  • страницы поиска;
  • страницы с шаблонами сайта;
  • страницы регистрации и авторизации;
  • страницы для печати;
  • административную часть сайта.

Что должен содержать файл robots.txt

  • User-agent: *;
  • Disallow: /админка сайта/;
  • Sitemap: http://mysite.com/sitemap.xml

Будьте внимательны! Программисты при разработке сайта закрывают его, прописывают директиву Disallow: /.После запуска сайта забывают ее убрать, а роботы индексируют и выкидывают из поисковой базы весь сайт. Так же при переезде на https надо изменить ссылка на карту сайта.

Другие индивидуальные настройки

Crawl-delay; Директива Crawl-delay указывает время, которое роботы должны выдерживать между загрузкой двух страниц.

Clean-param; Для исключения страниц сайта, которые содержат динамические (GET) параметры.

Спецсимволы $, *, /, #;

Спецсимвол * (звёздочка) означает любую последовательность символов.

Спецсимвол # (решётка) используется для комментариев в файле для себя, пользователей.

Спецсимвол / (слеш) используется в каждой директиве Allow и Disallow. С помощью слеша можно запретить доступ к папке и её содержимому /category/ или ко всем страницам, которые начинаются с /category.

Спецсимвол $ запрещает конкретный url который вы указали

Вывод

Мы рассмотрели основные настройки файла Robots.txt. Для более подробного изучения читайте faq.

Использование robots.txt справка Яндекс

Часто задаваемые вопросы о роботах

О файлах robots.txt справка Google

Бонус для читателей блога

Генератор картинок для robots.txt  http://picascii.com/

Была ли статья полезна?
0
Автор: Павел Гречко
Продвижение и оптимизация сайта (SEO) от 20 000 рублей. Смотрите подробнее  мои услуги