Как найти и удалить дубли страниц на сайте?

Привет на связи Павел Гречко сегодня разберём как найти дубли страниц, отдающих код 200. Разберем, какие это могут быть дубли и как их исправить.

Возможные типы дублей страниц на сайте

Дубли страниц с протоколами http и https.Например: https://site.ru и http://site.ru
Дубли с www и без.Например: https://site.ru и https://www.site.ru
Дубли со слешем на конце URL и без.Например: https://site.ru/example/ и https://site.ru/example
Дубли с добавлением на конце URL:

index.php
home.php
index.html
home.html
index.htm
home.htm

Как обнаружить дубли страниц?

Поиск дубликатов страниц может быть выполнен различными методами. Если ваша цель – собрать все возможные дубликаты и не упустить ничего, наилучшим вариантом будет использование всех перечисленных сервисов вместе. Однако для обнаружения основных дубликатов достаточно выбрать любой удобный вам инструмент из списка и использовать его.

Парсинг сайта в Screaming Frog SEO Spider

Для поиска дубликатов подходит программа Screaming Frog SEO Spider. Запускаем сканирование, а после него проверяем дубли в директории URL → Duplicate:

Как найти и удалить дубли страниц на сайте?

Кроме того, в директории Protocol → HTTP проверяем страницы с протоколом http — есть ли среди них те, у которых Status Code равен 200:

Панели веб-мастеров Яндекса и Google.

Найти дублирующиеся страницы можно с помощью собственных инструментов поисковиков — Яндекс.Вебмастера и Google Search Console.

В Яндекс.Вебмастере анализируем раздел «Индексирование», далее — «Страницы в поиске»:

В Search Console анализируем раздел «Покрытие», а именно пункт с исключенными из индекса страницами:

Как убрать дубли страниц на сайте?

301 редирект

Ниже даны наиболее используемые правила настройки файла .htaccess для 301-редиректа. Лучше размещать все правила после двух строк:

Options +FollowSymLinks
RewriteEngine On

Комментарий в файле обозначается символом решётка «#» в начале строки #

# Текстовый комментарий, данная строчка не будет обрабатываться.

301-редирект с домена без WWW на домен с WWW префиксом #

RewriteCond %{HTTP_HOST} ^site\.ru$ [NC]
RewriteRule ^(.*)$ http://www.site.ru/$1 [R=301,L]

С домена с WWW префиксом на без #

RewriteCond %{HTTP_HOST} ^www.site\.ru$ [NC]
RewriteRule ^(.*)$ http://site.ru/$1 [R=301,L]

Для HTTPS-версии:

RewriteCond %{SERVER_PORT} ^80$ [OR]
RewriteCond %{HTTP} =on
RewriteRule ^(.*)$ https://pixelplus.ru/$1 [R=301,L]

Стандартная переадресация с одной статической страницы на другую #

Redirect 301 /was.php http://www.site.ru/new.php

При этом, новый адрес указывать необходимо полностью с http и доменным именем.

В ряде случаев полезна переадресация через RewriteRule #

RewriteRule ^dir /dir-new/$1 [R=301,L]

Настройка переадресации на папки со слешем в конце / #

RewriteCond %{REQUEST_FILENAME} !-f
RewriteCond %{REQUEST_URI} !\..{1,10}$
RewriteCond %{REQUEST_URI} !(.*)/$
RewriteRule ^(.*)$ http://www.site.ru/$1/ [L,R=301]

Настройка переадресации на папки без слеша (убираем слеш в конце) #

RewriteCond %{REQUEST_FILENAME} !-d
RewriteCond %{REQUEST_URI} ^(.+)/$
RewriteRule ^(.+)/$ http://www.site.ru/$1 [R=301,L]

Перенос сайта на версию с HTTPS (для всех страниц) #

RewriteCond %{SERVER_PORT} ^80$ [OR]
RewriteCond %{HTTP} =on
RewriteRule ^(.*)$ https://domain.ru/$1 [R=301,L]

Создание канонической страницы

Использование canonical указывает поисковому пауку на ту единственную страницу, которая является оригинальной и должна быть в поисковой выдаче.

Чтобы выделить такую страницу, нужно на всех URL дублей прописать код с адресом оригинальной страницы.

Директива Disallow в robots.txt

В файле robots.txt содержатся инструкции для поисковых краулеров, как именно индексировать сайт.

Если на сайте есть дубли, можно запретить роботу их индексировать с помощью директивы:

User-agent: *
Disallow: /blabla/

Итог

В общем надо всё найти и составить ТЗ как это всё поправить. Дать програмисту задание. Потом проверить обязательно его работу, а то есть вероятность что накосячит и сайт выпадет из поиска.