Дубли страниц. Как найти и что с ними делать

Что такое дубли страниц и почему они появляются

Здравствуйте, уважаемые читатели сайта Uspei.com. Сегодняшняя статья будет посвящена поиску и устранению дублей на вашем сайте. Для начала мы посмотрим в чем же заключается опасность дублирующих страниц на сайте. Попробуем найти дубли на ресурсе и попробуем их устранить для того, чтобы в будущем они не появлялись.

Перед тем как говорить о дублях, хочется дать определение, что же такое дублирующие страницы сайта. Под дублями мы понимаем несколько страниц одного ресурса, которые содержат в достаточной мере идентичный текстовый контент.

Хочу обратить ваше внимание, что речь мы ведем только об одном ресурсе и говорим только о текстовом контенте подразумевая, что робот при определении дублирующих страниц смотрит только на текстовое содержимое страниц вашего сайта (как оптимизировать текстовый контент читайте в этом посте). То есть он не проверяет дизайн либо изображение на данных страничках, а смотрит только на текст.

В большинстве случаев дублирующие страницы это одна и та же страница сайта, просто доступная по нескольким адресам.

Причин появления дублей на сайте огромное количество. Все они связаны с различными ошибками:

Например, ошибки в содержимом страниц: когда некорректно указаны относительные ссылки или отсутствует (недостаточное количество) текст на страницах (смотрите больше про ошибки индексирования).
Некорректные настройки 404 кода ответа, либо доступность служебных страниц сайта.
Особенности работы cms, которую вы используете.

Вот это большое количество дублирующий страниц зачастую гнетет вебмастеров и они откладывают работу над дублями в долгий ящик, не хотят этим заниматься. Но на самом деле делать этого не стоит, поскольку наличие дублей может привести к различным проблемам.

Дубли страниц

К каким проблемам приводят дубли страниц

Их можно разделить на три большие группы.

Во первых, эта смена релевантной страницы в результатах поиска.
Во-вторых, обход роботом большого количества дублирующих страниц вместо того, чтобы индексировать нужные странички сайта.
В-третьих, это проблемы со сбором статистики на ваше на ресурсе.

По каждой проблеме пройдемся поподробнее.

– Смена релевантной страницы в результатах поиска

uspei.com/uslugi/buhgalterskie-uslugi/
uspei.com/buhgalterskie-uslugi/

Я взял сразу пример из практики. На сайте есть страничка с бухгалтерскими услугами. Она доступна по двум адресам – первый адрес находится в разделе (категории) услуги, второй адрес это страничка в корне сайта. Контент данных страничек абсолютно одинаков.

Поскольку робот не хранит в своей базе сразу несколько идентичных документов он выбирает самостоятельно страницу для включения в поисковую выдачу. Кажется, что по сути не должно произойти ничего плохого, ведь странички абсолютно похожи между собой. Но вы же опытные вебмастера и знаете, что позиция конкретной страницы по запросам рассчитывается на основании ранжирования по нескольким сотням показателей. Поэтому при смене страницы в поисковой выдаче ее позиции могут измениться, как произошло и в нашем случае.

Просели позиции из-за смены основной страницы дубликатом

По конкретному запросу услуги бухгалтерского учета видно, что в середине июня произошло проседание позиций. Это как раз связано с тем, что сменилась релевантная страница в поисковой выдаче (что такое релевантность можно узнать тут). И спустя несколько дней в районе 19 сентября позиции восстановились, поскольку в поиск вернулась нужная страница сайта, которая участвовала в выдаче до этого. Согласитесь, даже такое небольшое изменение позиции сайта может очень сильно повлиять на трафик вашего ресурса.

– Обход роботом большого количества дублирующих страниц

Вторая причина, по которой необходимо бороться с дублями связана с тем, что робот начинает посещать большое количество дублирующих страниц. Поскольку количество запросов со стороны индексируют робота ограничено, например, производительностью вашего сервера или cms (или вами с помощью директивы Crawl-delay), робот при большом количестве дублирующих страниц начинает скачивать именно их вместо того, чтобы индексировать нужные вам странице сайта. Ранее мы говорили уже о том, как правильно настроить индексацию вашего сайта.

В результате чего в поисковой выдаче могут показываться какие-то неактуальные данные и пользователи, приходя на ваш ресурс, не будут видеть информацию, которую вы размещали на сайте.

Тоже пример из практики по обходу дублирующих страниц. Очень большой интернет-магазин. Видно, что до конца мая робот каждый день скачивал чуть меньше 1 миллиона страниц сайта. После обновления ресурса и внесения изменений на сайт видно, что робот резко увеличил нагрузку на ресурс и начал скачивать уже несколько миллионов страниц.

Робот тратит время на обход дублей

Огромные-огромные цифры и если посмотреть, что же именно скачивает индексирующий робот, то можно увидеть, что большое количество, вот этот желтый пласт несколько десятков миллионов это как раз дублирующие страницы. Их примеров можно будет посмотреть ниже. Это страницы с некорректными get-параметрами в url адресе (подробно о структуре url). Как раз такие странички появились из-за некорректного обновления cms, используемого на сайте.

Робот сканирует много дубликатов

– Проблемы сбора статистики на сайте

И третья проблема, к которой могут провести дублирующие страницы, это проблемы со сбором статистики на вашем сайте. Например, в Яндекс-вебмастере либо в Яндекс-метрике. Если говорить о Яндекс-вебмастере, то в разделе страницы в поиске вы можете наблюдать вот такую картину. При каждом обновлении поисковой базы количество страниц в поиске остается практически неизменным. Но видно, что робот на верхнем графике при каждом посещении добавляет и удаляет примерно одинаковое количество страниц .То есть, какой-то процесс происходит постоянно: что-то добавляется, удаляется, при этом в поиске количество страниц остается неизменным. Странная ситуация.

Проблемы сбора статистики

Смотрим раздел статистика обхода (скриншот ниже). Ежедневно робот посещает несколько тысяч новых страниц сайта, это только новая страница. При этом данные страницы в поисковую выдачу как видно на графике ниже опять-таки не попадают. Это как раз также связано с обходом дублирующих страниц, которые потом в поисковую выдачу не включаются.

данные страницы в поисковую выдачу не попадают

Если вы используете Яндекс метрику для сбора статистики посещаемости конкретной страницы, то может возникнуть следующая ситуация (скриншот ниже).Данная страница показывалась ранее по конкретному запросу и на нее были переходы из результатов поиска. Но видно, что в начале мая данные переходы прекратились. То есть страничка перестала показываться по запросам, пользователи поисковой системы перестали переходить по ней. На самом деле что произошло? Просто включилась в поисковую выдачу дублирующая страница и пользователи поиска переходят именно на нее, а не на нужную страницу, за которой вы наблюдаете с помощью Яндекс-метрики.

Переходы на основную страницу из поиска прекратились

В результате три таких больших проблемы, к которым могут привести дублирующие страницы вашего сайта. Это смена релевантной страницы, обход дублирующих страниц вместо нужных и проблемы со сбором статистики. Согласитесь, такие три большие проблемы, которые должны вас как-то мотивировать к работе над дублирующими страницами сайта. Чтобы что-то предпринять сначала дубли нужно найти. Об этом следующий раздел.

Как найти дублирующие страницы

Практически на каждом ресурсе в интернете есть дублирующие страницы осталось их только найти.

– 1 способ:

Начнём с самого простого способа – будем искать дубли с помощью раздела “Страницы в поиске” в Яндекс вебмастере. Всего 4 клика, с помощью которых можно увидеть все дублирующие страницы на вашем ресурсе.

Заходим в раздел “страницы в поиске”;
Переходим на вкладочку “исключенные страницы”;
Выбираем сортировку;
Нажимаем кнопочку “применить”.

Ищем дубли в 4 клика

В результате чего, на нашем экране видны все страницы, которые исключил робот из поисковой выдачи, поскольку посчитал дублирующими. Согласитесь, очень легко – 4 клика, быстро и понятно – и вот все дублирующие страницы с вашего ресурса. Если таких дублирующих страниц много, как в нашем случае их несколько десятков тысяч, можно полученную таблицу скачать в excel формате и дальше использовать в своих интересах. Например, собрать какую-то статистику, посмотреть списком все страницы, которые исключил индексирующий робот.

– 2 способ:

Второй способ – это раздел “Статистика обхода”. Соседний раздел – переходим в него и смотрим, что посещает индексирующий робот. Внизу раздела можно включить сортировку по 200-му коду и видно, какие страницы доступны для робота, какие страницы он посещает. В этом разделе можно увидеть не только дублирующие страницы, но и различные служебные страницы сайта, которые индексировать не хотелось бы.

В статистике обходы выбираем дубли

– 3 способ:

Третий способ посложнее и вам нужно будет применить свою фантазию. Берем любую страницу на вашем сайте и добавляем к ней произвольный get-параметр. В данном случае к странице добавили параметр test со значением 1 2 3. Используем инструмент проверка ответа сервера, нажимаем кнопочку проверить и смотрим код ответа от данной страницы. Если такая страница доступна, то есть как в нашем случае отвечает кодом ответа 200 – это может привести к появлению дублирующих страниц на вашем сайте. Например, если робот найдет такую ссылку где-то в интернете он проиндексирует и потенциально страница может стать дублирующей, что не очень хорошо.

Добавляем get-параметр test123

– 4 способ:

И четвертый способ я надеюсь которым вы никогда не столкнетесь это инструмент “проверить статус URL”. Ситуация если нужная вам страница уже пропала из результатов поиска вы можете использовать этот инструмент чтобы посмотреть, по каким причинам это произошло. В данном случае видно, что страница была исключена из поисковой выдачи поскольку дублирует уже представленную в поиске страницу сайта и увидеть соответствующие рекомендации.

Ищем дубли в "проверить статус URL"

4 простых способа, которые может использовать каждый вебмастер, каждый владелец сайта с помощью сервиса Яндекс-вебмастер. Кажется все очень легко и просто. Я думаю, что никаких проблем у вас не возникнет.

Но помимо этих четырех способов вы можете использовать какие-то свои способы:

Например, посмотреть логи вашего сервера каким страницам обращается робот и посетители;
Посмотреть статистику Яндекс-метрики;
Посмотреть поисковую выдачу, возможно там получится также найти дублирующие страница вашего ресурса.

После того, как мы нашли дубль с ними нужно что-то делать, каким-то образом работать. Об этом следующий раздел.

Какие дубли страниц бывают

Вообще, все дубли можно разделить на 2 больших группы.

Во-первых, это явные дубли. То есть это страницы одного сайта, которые содержат абсолютно идентичный контент:

– страницы со слешом и без;
– товар в нескольких категориях;
– страницы версии для печати;
– страницы с незначащими параметрами;
– страницы с параметрами действий.

Вторая группа – это неявное дубли то есть это страницы с похожим содержимым одного сайта:

– страницы с похожими товарами;
– страницы с изображением или видео без описаний (галереи);
– страницы фильтров и сортировки;
– страницы пагинации.

Внутри этих больших групп представлено огромное количество видов конкретных дублей, которые сейчас мы с вами и обсудим. Посмотрим, каким образом можно их устранить.

– Страницы со слешом и без

uspei.com/page/
uspei.com/page

Самый простой вид дублей эта страница со слешом (да, да, правильно пишется именно так) в конце адреса и без слеша, как указано в нашем примере. Самый простой вид дублей и простое их решение, устранение этих дублей. Для таких дублирующих страниц я советую использовать 301 редирект с одного типа адресов на другой тип страниц с помощью .htaccess или cms. Во многих движках это прописано автоматом, так что перед тем как делать редирект самим проверьте, перекидывает ли вас с одной версии на другую. Если нет, то смело вносим следующие строки в .htaccess:

301 редирект со страниц со слешом на без слеша (весь сайт)

 RewriteCond %{REQUEST_URI} !?
 RewriteCond %{REQUEST_URI} !&
 RewriteCond %{REQUEST_URI} !=
 RewriteCond %{REQUEST_URI} !.
 RewriteCond %{REQUEST_URI} ![^/]$
 RewriteRule ^(.*)/$ /$1 [R=301,L]

301 редирект со страниц без слеша на слеш (часто в CMS системах устанавливается автоматически)

 RewriteCond %{REQUEST_URI} !?
 RewriteCond %{REQUEST_URI} !&
 RewriteCond %{REQUEST_URI} !=
 RewriteCond %{REQUEST_URI} !.
 RewriteCond %{REQUEST_URI} !/$
 RewriteRule ^(.*[^/])$ /$1/ [R=301,L]

Вы спросите, а какие страницы нужно оставить для робота? Здесь решение принимать только вам. Вы можете посмотреть результаты поиска и увидеть, какие именно страницы вашего сайта присутствуют в поисковой выдаче на данный момент. Если сейчас индексируются и участвуют в поиске страницы без слеша, соответственно со страниц со слешом можно установить перенаправление на нужные вам. Это прямо укажет роботу на то, какие именно страницы нужно индексировать и включать в поисковую выдачу. Настроить редирект можно разными способами – с помощью служебного файла htaccess, либо просто в настройках cms выбрать формат адресов.

– Товар в нескольких категориях

uspei.com/игрушки/мяч/
uspei.com/спорт/мяч/

Второй вид дублей – это один и тот же товар, который находится в нескольких категориях. В данном случае у нас товар мяч и он доступен по адресу с категорией игрушки/мяч и доступен также в категории /спорт/мяч.

Для робота, поскольку эти страницы абсолютно одинаковы, это как раз дубли. В такой ситуации я советую вам использовать атрибут rel=canonical с указанием адреса канонической страницы. То есть той страницы, которую необходимо включать в поисковую выдачу. Будет прямое указание для робота и в поиске будет участвовать именно нужный вам адрес. Опять-таки, какой адрес выбирать? В такой ситуации стоит подумать о посетителях вашего сайта. Посмотрите какой формат адресов будет удобен им и поможет им лучше ориентироваться на вашем сайте при просмотре адресов. То есть понимать какой в категории например они находятся.

На моем сайте, например, многие посты относятся к двум, а то и к трем категориям, но в индексе и поиске присутствует только одна версия с rel=canonical. Этот атрибут wordpress в связке с плагином Yoast SEO прописывают автоматом для первой категории, которую я указал. Но при желании главную категорию можно легко изменить.

В случае, если на вашем сайте, как в примере, о котором я говорил, в интернет магазине появились некорректные относительные адреса, то возникнет следующая ситуация. У вас одна и та же страничка (на скриншоте ниже) будет находиться в разделе игрушки/мяч так и станет доступна сразу по большому количеству вложенности этой категории. То есть в данном случае это несколько раз повторяется категория игрушки и потом мяч и в конце собственно обычный пользователь и робот и видят товар, который собственно находится на исходном адресе.

uspei.com/игрушки/мяч
uspei.com/игрушки/игрушки/игрушки/игрушки/мяч

Во-первых, для того чтобы побороть такие страницы стоит разобраться с причинами их появления, то есть посмотреть исходный код страниц вашего сайта и проверить корректно ли вы используете относительные ссылки на вашем ресурсе. После того, как ошибку нашли настройте возврат 404 кода на запрос индексирующего робота к таким страницам. Это сразу позволит избежать дублирования информации. Если старая 404-ошибка, давно устраненная, не дает вам покоя – читайте тут.

– Страницы версии для печати

Следующий пример дублирующих страниц это страница версии для печати. В качестве примера я взял страницу одного сайта, в котором собраны тексты песен. Видно, что с левой стороны у нас версия для обычных пользователей с дизайном, с фоном и стилями. И с правой стороны версия для печати для того, чтобы можно было удобно распечатать эту страничку на принтере. Поскольку данные страницы доступны по разным адресам, потенциально для робота они, естественно, тоже дублирующие. Потому, что текстовое содержимое данных страниц абсолютно похоже.

Дубли в версии для печати

Для подобных страниц для того, чтобы дублирование в случае их наличия не возникло, я советую вам использовать запрет файле robots.txt. Например как в нашем случае запрет Disallow: /node_print.php* укажет роботу на то что все страницы по подобным адресам индексировать нельзя. Одно простое правило позволит вам сразу избежать проблем с дублирующими страницами.

– Страница с незначащими параметрами

uspei.com/page
uspei.com/page?utm_source=adv
uspei.com/page?sid=et4jy57

Следующий вид дублей это страница с незначащими параметрами. Незначащие параметры это те get-параметры в url-адресе ваших страниц, которые совсем не меняют их содержимое. Посмотрим пример, который я взял. У нас есть страница без параметров это страничка /page, есть страница 2 с utm-метками (они используются в рекламных компаниях) и есть страничка с параметром идентификатора сессии, например, если у вас форум. Кстати, при раскрутке форума такие ситуации случаются очень часто.

Поскольку вот эти параметры абсолютно не меняют контент страниц, для робота это дублирующие страницы сайта. Для таких ситуаций есть специальная директива Clean-param в robots.txt и в ней можно перечислить все незначащие параметры, которые используются на вашем сайте.

Clean-param:utm_source&sid

или по старинке

Disallow: /*utm_*
Disallow: /*sid=*

В данном случае у нас два параметра – utm_source и sid . Указали их в директиве Clean-param. Эта директива поможет роботу не только указать на то, что данные параметры являются не значащими, но и укажет роботу на то, что на вашем сайте есть страницы по чистому адресу, то есть без данных get-параметров.

Если роботу она ранее была неизвестна он придет и специально скачает страничку по чистому адресу и включит ее в поисковую выдачу. Такая сложная логика, но эта логика позволит вам избежать проблем. Нужные вам странички по чистым адресам будут всегда присутствовать в поисковой выдаче, чего не будет происходить, если вы просто используйте запрет, как указано ниже в примере. В данном случае робот просто не узнает, что на вашем сайте есть такие страницы по чистым адресам. Поэтому для незначащих параметров используйте директиву Clean-param. Можете также как в примере использовать и обычный disallow.

– Страницы с параметрами, отражающими действие

uspei.com/page?add_basket=yes
uspei.com/page?add_compare=list
uspei.com/page?comment_page=1

Очень близко по смыслу это страницы действий на вашем сайте. Например, если пользователь на вашем ресурсе добавляет товар в корзину, либо сравнивает его с другими товарами, возможно перемещается по страницам с комментариями. То есть добавляются какие-то дополнительные служебные параметры, которые характеризуют действие на вашем сайте. При этом контент на таких страницах может совсем не меняться, либо может меняться совсем незначительным способом.

Чтобы робот совсем не посещал такие страницы не добавлял их в поисковую базу для данных случаев советую использовать запрет файле robots.txt. Вы можете перечислить в директиве Disallow по отдельности каждый из параметров, который характеризует действия на сайте. Либо если совсем не хотите, чтобы страницы с параметрами индексировались используйте правила, которые указаны ниже.

 Disallow: /*add_basket=*
 Disallow: /*add_compare=*
 Disallow: /*comment_*

или

 Disallow: /*?*

Одно такое правило позволит сразу избежать возможных проблем из-за наличия таких страниц-действий.

– Страницы с похожими товарами

Следующий вид дублей он же относится к неявным дублирующим страницам – это похожие товары. Как правило, в интернет-магазинах один и тот же товар доступен в нескольких вариантах. Например, разного размера цвета, мощности, все что угодно. В большинстве случаев такие товары доступны по отдельным url-адресам, что естественно затрудняет работу индексирующего робота, поскольку по сути эти странички практически ничем не отличаются. Поэтому для таких страниц я советую прежде всего использовать один url-адрес, по которому можно сразу выбрать варианты исполнения данного товара. Выбрать размер либо цвет.

Это позволит не только роботу хорошо ориентироваться на вашем ресурсе и позволит избежать дублирования информации, но и также посетителям облегчит переходы по страничкам. Не нужно будет переходить, возвращаться обратно в каталог, выбирать нужный вариант. Вы можете просто установить селектор и ваши пользователи на одной странице смогут сразу выбрать тот вариант, который им нужен.

Если такой возможности нет, то есть нет возможности разместить этот селектор, вы можете добавить на такие страницы дополнительное какое-то описание. Расписать почему такая мощность, для каких вариантов она подходит, почему такой цвет лучше чем другой. Добавить различные отзывы от покупателей, которые купили именно тот вариант цвета. Также вы можете закрыть с помощью тега noindex служебные текстовые части страниц. Это укажет роботу на то, что контент на страницах на самом деле отличается и нужно в поисковую выдачу включать оба или несколько вариантов страниц.

ВНИМАНИЕ!! Актеров осталось на три дубля

– Страницы с изображениями или видео без описаний (галереи)

Очень похожи по смыслу это страницы с фотографиями без описаний, например, если у вас фотогалерея либо фотобанки. Что делаем для таких страниц? Добавляем какое либо текстовое описание, либо отличные теги, которые будут характеризовать фотографию, которая собственно размещена на страничке.

– Страницы фильтров и сортировки

 https://uspei.com/poisk/?searchid=2312413&text=seo&web=0
 https://uspei.com/catalog/filter/price-from-369-to-593/pr_material-f22-or-c5/

Давайте к следующему варианту дублей – это страница фильтров, сортировки или поиска. Например, когда на вашем сайте можно в каталоге отсортировать товары по цене размеру, например, по материалу. Для начала при работе над такими страницами нужно подумать – они вообще полезны пользователю поисковой системы или нет. То есть достаточно ли они хорошо отвечают на конкретные запросы пользователей.

Ну, например, если у вас есть страница с сортировкой дешевых кондиционеров, а пользователи как раз и ищут дешевые кондиционеры, конечно, такие страницы стоит оставить доступными. Они будут полезны пользователям поисковой системы. Если такие странички не нужны я советую вам запрещать их файле robots.txt. Как в примере ниже страницы все сортировки размеров и фильтрации запретили с помощью disallow. Это оставит для робота только нужные страницы вашего сайта, что ускорит их индексирование.

 Disallow: /*searchid*
 Disallow: */filter/*

– Страницы пагинации

Очень близко по смыслу этой страницы пагинации, но рекомендации здесь другие. Если ваш каталог достаточно большой и у вас много различных товаров, вы скорее всего используете пагинацию для того, чтобы пользователям было удобнее ориентироваться в каталоге и не видеть все сразу товары, представленные в вашем сайте. В таком случае я рекомендую размещать атрибут real=canonical с указанием канонической страницы в данном случае это 1 страница каталога, которая будет индексироваться и показываться в поисковой выдаче. Пользователи приходя из поиска также будут попадать на заглавную стартую страницу конкретного раздела вашего каталога.

Шпаргалка по дублям страниц и что с ними делать

Поскольку видов дублей большое количество, я для вас сделал такую небольшую шпаргалку. В зависимости от того, какой вид дублей вы встретите на вашем сайте я предлагаю различные решения, которые будут оптимальной с точки зрения поисковой оптимизации.

Шпаргалка по видам дублей и мерам по их устранению

В итоге при работе над дублями обязательно не нужно недооценивать риски, которые могут привести дублирующие страницы на вашем сайте. Нашли дубли в Яндекс вебмастере -сразу применили к ним различные изменения на вашем ресурсе, чтобы дубли в будущем не появлялись в поисковой выдаче.

Следить за дублирующими страницами вы также можете в разделе “страницы в поиске”. А с помощью инструмента “важные страницы” можно смотреть за статусом наиболее востребованных страниц вашего сайта. Что тоже очень полезно для того, чтобы моментально отреагировать на появление дублирующих страниц.

Официальные ответы Яндекса на вопросы о дублях страниц

Если для первой страницы пагинации задействовать real=canonical, то как робот узнает о товарах на остальных страницах. На самом деле неканонические страницы также посещаются индексирующим роботом. Он обязательно узнает про них и проиндексирует.

Робот исключает из поиска страницу с real=canonical, а вместо нее включает в поиск другую, как быть? Проверьте корректность установки атрибута real=canonical. Также, если в поисковую выдачу попадает неканоническая страница, то есть та, которая не должна индексироваться, есть вероятность, что страница с атрибутом real=canonical НЕДОСТУПНА для робота по различным причинам.

Являются ли дублями страницы с одинаковым набором get параметров, но расположенных в разном порядке. Да, для робота такие страницы будут дублирующими.

Как часто робот обходит файл robots.txt? Robots.txt индексирующий робот обновляет примерно два раза в сутки, поэтому о внесенных вами правилах он узнает достаточно быстро. В поисковой выдаче те изменения, которые внесли вы, применяются в течение 1-1,5 недели, в зависимости от частоты обновления поисковой базы.

Что делать, если за дубли робот принимает схожие товары (отличие в заголовках и title, но схожие описания). Неужели нужно уникализировать каждый товар? Что делать если их тысячи. Начните с тех товаров, которые у вас лучше продаются. Которые будут полезны вам в поисковой выдаче. Продолжайте постепенно по уменьшению популярности, возможно вам и не нужны все 1000 страниц в результатах поиска. Также, как вариант, вы можете запретить с помощью тега noindex какие-то общие фрагменты на страницах, чтобы робот увидел, что их тексты действительно отличаются.

Есть ли параметр в robots.txt, который делает обратное действие клин парам, то есть белый список, а не черный. Такой директивы нет

Одна и та же статья в основном домене и на подмене рассматривается ли как дубль? Нет дублей в данном случае нет

Можно ли в самом вебмастере удалить дубли страниц? К сожалению на текущий момент такого инструмента нет. Вы можете внести необходимые изменения на вашем сайте и дождаться, пока индексирующий робот самостоятельно увидит, что дублирующие страницы стали недоступны, и что их необходимо удалить.

Если на страницах пагинации уникальный контент, попадут ли они в индекс если на главной будет real=canonical ? Нет, если вы используете canonical, то страницы пагинации в поиск не попадут. Поэтому, если у вас на страницах пагинации размещен какой-то уникальный контент, который хорошо отвечает на конкретные запросы пользователей, вы можете оставить их доступными для индексирования.

Являются ли дублями для основной страницы ссылки с на эту страницу с якорями. Нет они дублирующими считаться не будут. Для робота это один и тот же адрес.