Файл robots.txt – зачем он нужен, как его создать и настроить

Здравствуйте, уважаемые читатели сайта Uspei.com. Сегодня мы рассмотрим тему управления индексацией с помощью файла robots.txt. Google в своем руководстве по поисковой оптимизации для начинающих обращает наше внимание на несколько инструментов, с помощью которых мы можем управлять индексацией нашего сайта.

Зачем управлять индексацией сайта?

Зачем как-то дополнительно управлять индексацией? Недавно мы рассмотрели, что такое индексация, как поисковая система сканирует странички нашего сайта и тогда мы пришли к выводу, что поисковики должны проиндексировать все страницы нашего сайта независимо от того, что это за страницы. Но на самом деле, на практике оказывается, что все немножко сложнее. Файл robots.txt и его настройка

А именно, на нашем сайте часто есть страницы, которые полезны для пользователя, но в то же время не нужны поисковой системе. Также на нашем сайте есть дубликаты – разнообразные служебные страницы, которые не обязательно нужны поисковой системе, но в то же время они есть на нашем сайте, потому что они созданы какими-то ошибочными скриптами нашей системы управления контентом или чем-то подобным.

Так вот, поисковая система знает об этой ситуации, и дает нам возможность скрывать такие страницы от индексации с помощью специальных инструментов. И инструмент, который мы рассмотрим, называется файл robots.txt. Давайте для начала посмотрим, как найти эти некачественные страницы, которые стоило бы закрыть от индексации либо как-то дополнительно настраивать на них индексацию нашего сайта.

Какие страницы нужно скрывать от индексации?

Давайте посмотрим, какие страницы нужны пользователю, но в то же время не очень нужны поисковой системе и как в принципе такая ситуация может возникнуть. При этом такие страницы есть практически на любом относительно крупном сайте.

Самый классический пример это страница результатов поиска. То есть у нас на сайте есть поиск, куда мы можем вбить какую-то произвольную фразу или слово. Допустим, мы получаем страницу 404 «по запросу ничего не найдено». Эта страница полезна для пользователя, так как она сообщает, что по этому запросу ничего не найдено и человек должен это понять, должен это знать. Но в то же время, эта страница не очень полезна для поисковой системы, потому что страница малоинформативная.

То есть на ней не содержится какой-то полезной информации, которую можно было бы показывать в результатах поиска. Удалить эту страницу мы тоже не можем, потому что человек должен знать, что по этому запросу ничего не найдено. Проблема также в том, что мы видим наш поисковый запрос, который мы ввели во внутренний поиск, отображается в url. То есть каждый раз, когда мы меняем наш поисковый запрос по внутреннему поиску у нас генерируется новая страница с новым уникальным url.

https://uspei.com/poisk/?searchid=2312413&text=noutbuki

А как мы знаем основным идентификатором страницы в глазах поисковой системы служит как раз url-адрес. То есть мы можем вбивать в эту внутреннюю поисковую систему, в эту строчку латинские буквы, цифры, кириллические символы. Перебор этих символов, на самом деле, очень большой – миллионы страниц могут быть сгенерированы внутренним поиском. И все эти страницы приблизительно будут выглядеть одинаково – они будут малоинформативными.

То есть, если поисковая система каким-то образом сюда зайдет и начнет индексировать эти страницы, она может наиндексировать миллион вот таких малоинформативных страниц-дублей. На скрине ниже робот загрузил более 100 миллионов (!) дублей и обходит их регулярно.

Наличие миллионов дублей

Основная проблема в том, что поисковая система оценивает наш сайт, в том числе по соотношению качественных и некачественных страниц на сайте. Что такое качественный контент мы уже разобрали тут.

Если, скажем, у нас на сайте есть миллион качественных страниц и 15 миллионов некачественных, то поисковик может посчитать наш сайт не очень высокого качества, потому что большинство страниц малоинформативные. Так вот, мы можем смело сказать, что эти страницы не очень полезны для индексации.

Давайте введём что-нибудь более осмысленное в поисковую строчку. Например, название какого-нибудь раздела на нашем сайте “безопасность сайта”. Если мы вбиваем название категории, то мы уже получаем страницу с какими-то постами, метками и разделами и их сложно назвать малоинформативными. Здесь много разнообразной информации, мы можем выбрать какую-то статью. Но если мы задумаемся, то мы поймем, что эта страница тоже не нужна поисковой системе, так как представляет собой дублированный контент.

То есть на нашем сайте уже есть страница категории “Безопасность сайта” и поиск по запросу “безопасность сайта”, по сути, хотя страница и выглядит немножко по другому, дублирует содержание категории “Безопасность сайта” в принципе. То есть эта страница не несет в себе никакой полезной, новой информации и эта страница дублирует уже существующее содержание.

Такая страница тоже не полезна поисковой системе и поэтому мы должны скрыть ее от глаз поисковых ботов, то есть запретить индексацию этой страницы.

Только что, по сути, мы рассмотрели два основных вида некачественных страниц. То есть поисковая система воспринимает страницы как некачественные в основном по двум причинам.

Если страница малоинформативна, то есть на ней в принципе мало информации – одна строчка или две строчки какого-то текста или какое-то одно небольшое изображение (не забудьте оптимизировать), либо же информация в принципе отсутствует (очень часто люди почему-то добавляют на сайт пустые страницы, хотя неоднократно говорили как правильно оформлять текстовый контент).
Дублированный контент. То есть страница содержит в себе информацию, которая уже есть на других страницах этого же сайта. Поисковая система понимает, что одну и ту же информацию сканировать несколько раз не стоит и поэтому считает такую страницу некачественной.

Что такое файл robots.txt и где он находится

И первый инструмент, который мы можем использовать для настройки индексации он самый простой, самый базовый, но от этого не менее эффективный – это инструмент, который называется файл robots.txt.

Это обычный текстовый файл, в котором мы даем команды поисковому боту. То есть мы сообщаем ему, что сканировать можно, что сканировать нельзя и каким поисковым ботам нужно выполнять эти команды, а каким поисковым ботам не нужно выполнять команды.

Давайте посмотрим на практике, как выглядит этот самый robots.txt и где его найти, ну а потом разберемся в синтаксисе, то есть, как он пишется, как его правильно оформлять.

На самом деле на всех сайтах он расположен по одному и тому же адресу – в корне сайта. Для того, чтобы открыть файл robots.txt нужно в конце адреса поставить слеш и написать robots.txt. Вот пример моего файла. Если такого файла нет – 100% никаким seo на сайте и не пахло.

Команды файла robots.txt

Давайте посмотрим, что мы здесь увидим. Первая команда, которую обычно мы видим это команда user-agent. Команда user-agent объявляет, какие поисковые боты должны выполнять нижеприведенные команды. Звездочка означает любое значение.

В принципе синтаксис файла следующий:

Каждая команда пишется с новой строки.
Вначале пишется команда, потом ставится двоеточие, пробел и значение команды.
Не более одной директивы в строке;
В начало строки пробел ставить нельзя;
Запись параметров должен быть в одну строку;
Использование кавычек для обрамления директивы недопустимо;
В конце параметров точка с запятой не ставится;
Команда в robots.txt указывается в формате — [Имя_директивы]:[необязательный пробел][значение][необязательный пробел];
Комментарии в robots.txt оформляется после знака решетки #;
Пустой перевод строки может трактоваться как окончание директивы User-agent;
Директива «Disallow: » (с пустым значением) равнозначна «Allow: /» — разрешить все;
В директивах «Allow», «Disallow» указывается не более одного параметра;
В названии файла robots.txt, а также в самих параметрах нельзя использовать заглавные буквы;
Если параметр директивы является директорией, то перед название директории всегда ставится слеш «/», например: Disallow: /category
Слишком большие robots.txt (более 32 Кб) считаются полностью разрешающими, равнозначными «Disallow: »;
Недоступный по каким-либо причинам robots.txt может трактоваться как полностью разрешающий;
Если robots.txt пустой, то он будет трактоваться как полностью разрешающий;
В результате перечисления нескольких директив «User-agent» без пустого перевода строки, все последующие директивы «User-agent», кроме первой, могут быть проигнорированы;
Использование любых символов национальных алфавитов в robots.txt не допускается.

Если мы видим команду user-agent : *. Это означает – все поисковые боты всех поисковых систем и сервисов должны выполнять нижеприведенные команды.

У каждого вида поискового бота (а их много различных по назначению и функциональности) есть свое название, которое можно указать после user-agent и данная запись будет относиться именно к этому поисковому боту.

# Указывает директивы для всех роботов одновременно 
User-agent: * 
# Указывает директивы для всех роботов Яндекса 
User-agent: Yandex 
# Указывает директивы для только основного индексирующего робота Яндекса 
User-agent: YandexBot 
# Указывает директивы для всех роботов Google 
User-agent: Googlebot

Но это для специалистов, в большинстве случаев достаточно две записи, отдельно для Яндекса и для всех остальных. Если основной бот Яндекса (или любого другого поисковика) видит правила персонально для себя любимого, то все другие он тогда игнорирует.

Как часто робот обходит файл robots.txt? Со слов Яндекса индексирующий робот обновляет robots.txt примерно два раза в сутки, поэтому о внесенных вами правилах он узнает достаточно быстро. В поисковой выдаче те изменения, которые внесли вы, применяются в течение 1-1,5 недели, в зависимости от частоты обновления поисковой базы. В Google возможно все также, а возможно еще чаще и быстрее.

Гугл “психует” если ему закрывать для индексации некоторые разделы или виды файлов и он начинает показывать ошибки в кабинете вебмастера.

Гугл не любит когда ему запрещают индексировать

Нужно проверить, что он пишет в разделе “заблокированные ресурсы” и выполнить его рекомендации, чтобы в итоге стало так:

А иначе Google предупреждает: “Если файл robots.txt сайта не позволяет просканировать все эти ресурсы, возникают ошибки. Из-за этого рейтинг сайта в Google Поиске становится низким.”, а это уже не шутки))).

Яндекс как-то более внимателен к просьбам вебмастера, поэтому дисциплинированно соблюдает, предоставленный ему robots.txt и поступает в соответствии с его инструкциями. Например, тут почитайте про поисковых ботов Яндекса и файл robots.txt.

– команда disallow

Следующая самая распространенная эта команда disallow. Команда disallow запрещает что-то индексировать. Что она запрещает, написано дальше. Давайте посмотрим, к примеру, на страницы результатов поиска. Вот у нас странички результата поиска, мы вводили какие-то произвольные наборы символов и цифр и давайте посмотрим еще раз на адрес этой страницы.

https://uspei.com/poisk/?searchid=2312413&text=noutbuki

Мы видим, что это домен, потом каталог /poisk/ и внутри каталога идет страница с результатом поиска, ее адрес. Если мы захотим перечислить все страницы такого вида, то у нас будет миллион строк. Это будет очень долго и, естественно, этого делать не нужно.

Поисковые системы дают нам возможность запретить все эти страницы одной простой командой. Мы видим, что все страницы результатов поиска по структуре адреса (смотрите про правильную структуру сайта) находятся внутри каталога /poisk/. Поэтому мы можем запретить каталог /poisk/ для индексации и таким образом будет запрещено все, что находится в этом каталоге.

Давайте посмотрим, как это написано в моем файле robots.txt. Вот такая конструкция запретит индексацию всего каталога poisk и всего, что в нем лежит.

Disallow: /poisk/

То есть вот этот каталог и любая страница, которая лежит в этом каталоге тоже будет закрыта от индексации. Так мы одной строчкой в robots.txt закрываем от индексации миллионы страниц результатов поиска.

Давайте посмотрим, где еще могут находиться на сайте некачественные страницы. Зайдем в какую-нибудь рубрику любого интернет-магазина, например, “бюджетные планшеты”. Давайте поменяем сортировку, то есть изначально у нас стоит вид сортировки “по рейтингу”, поменяем на сортировку “по популярности”. Меняем вид сортировки и у нас стали в другом порядке товары. Но, что более интересно для нас – изменился url.

То есть помимо всех тех идентификаторов, которые были в адресе, у нас добавилась маленькая строчка sort=popularity.

Давайте используем еще какую-то сортировку, например, сортировку “новинки”. И опять у нас меняется url. То есть каждый раз, когда мы используем дополнительную сортировку у нас меняется адрес страницы. Как мы уже знаем основной идентификатор страницы это адрес, а значит, если изменился адрес страницы – для поисковой системы это уже совершенно другая страница.

Но давайте задумаемся, ведь от того, что товары стали в другой последовательности содержание страницы не изменилось. То есть, страница все также про “бюджетные планшеты” независимо от того, как эти “бюджетные планшеты” между собой отсортированы.

По сути, любая страница сортировки это дублированный контент. То есть она дублирует изначальную страницу “бюджетных планшетов” просто в другом порядке отображаются карточки товара.

То есть у нас есть основной адрес, и каждая страница сортировки создает дубль. То есть у нас помимо основного адреса еще пять дублей. Если на нашем сайте, скажем, 100 разделов и 5 дополнительных видов сортировки в каждом, то в 100 разделах на пять видов сортировки мы получаем 500 дублей контента.

Естественно, если google все это проиндексирует, то он может воспринять наш сайт как не очень качественный, потому что в нашем сайте очень много дублированного контента.

Как решить эту проблему? Здесь мы уже не можем найти какой-то каталог, который мы могли бы закрыть от индексации. Все каталоги нам нужны, потому что в этих каталогах находится раздел самих “бюджетных планшетов”. Сортировка добавляется как некое окончание в нашем url-адресе.

Для того чтобы закрыть от индексации такого вида страницы с помощью robots.txt нам нужно использовать шаблоны. Вот пример такого шаблона. То есть или правило со звездочкой как это еще часто называют.

disallow: /*sort=*

Звездочка в этом шаблоне означает любой набор символов. То есть это правило можно рассказать следующим образом – если адрес у нас состоит из любого набора символов + sort= + любой набор символов, то такую страницу не нужно индексировать.

Таким образом, поскольку на любой странице сортировки независимо от раздела содержится параметр sort= если мы используем следующий шаблон, то таким образом мы закрываем все страницы результатов дополнительных сортировок во всех разделах и подразделах нашего сайта одним правилом.

Это были сотни дублей, которые мы просто через вот это правило со звездочками закрыли от индексации сразу на всем сайте. Используя вот эти два простых правила – запрет по каталогу и запрет с правилами по звездочкам – мы можем запретить практически любые страницы на нашем сайте по их url.

User-agent: Yandex 
Disallow: /wp-content/themes

Такое указание роботу Яндекса предполагает его допуск в большую категорию «wp-content», в которой он может индексировать все содержимое, кроме «themes».

Disallow: /*.gz # запрещаем индексацию всех файлов с расширением .gz 
Disallow: /*?* # запрещаем индексацию всех файлов с символом ?

– команда allow

Помимо команды disallow существует еще команда allow. Команда allow это команда разрешения что-то индексировать. Пишется аналогичным образом.

Disallow: /tag/
Allow: /tag/seo/

То есть мы пишем allow ну и дальше какую-то категорию, которую мы хотим разрешить для индексации. Если есть хотя бы одна команда запрета, то есть вы запрещаете, допустим, результаты поиска, то подразумевается, что все остальное разрешено. Поэтому абсолютно не обязательно писать команду allow в своем файле robots.txt.

Обычно файл robots.txt чаще всего состоит из команд запрета. То есть запретили поиск, запретили сортировки, а все остальное автоматически разрешено. Но если вам нужно открыть какой-то ресурс из каталога, который до этого закрыли, например, вы закрыли все теги и хотите открыть какой-то конкретный один тег, одну страничку, то вы можете потом использовать команду allow для того, чтобы дать доступ именно к этой конкретной одной страничке. Только сначала запрещаем, а потом разрешаем – не наоборот.

Но чаще всего вам нужно запреты, поэтому чаще всего используется команда disallow.

– команда host

Кроме команд disallow и allow в файле robots.txt и другие команды. Из тех команд, которые нам особо интересны эта команда host и команда sitemap. Продолжим командой host – эта команда, которую крайне желательно указывать для поисковой системы Яндекс. Для поисковой системы google она имеет чисто рекомендательный эффект.

С помощью этой команды мы можем указать основное доменное имя сайта. То есть, если ваш сайт доступен по нескольким доменным именам, например, раньше у вас был домен .org вы купили себе домен .ru и перенесли на него сайт. Но все еще ваш сайт доступен по каким-то причинам по домену .org, а значит на домене .org в файле robots.txt вы должны прописать один и тот же основной домен. Но в вашем случае это будет домен .ru. Поисковая система зайдет robots.txt (вот здесь в команде хост обычно и пишут в самом конце файла robots.txt) увидит адрес основного домена и поймет, что домен .org является зеркалом, а .ru это основной домен и в поиске надо отображать именно основной домен.

Для Яндекса крайне важно и желательно прописывать вот эту команду host. На самом деле это абсолютно несложно – один раз прописали и забыли об этом. Единственное, если потом сайт переезжает на новый домен не забудьте менять host.

На самом деле, многие думают – у меня сайт доступен только по одному адресу, зачем мне прописывать host? Но host нужно прописывать для любого сайта, потому что очень часто практически всегда наш сайт доступен по двум доменным именам с www и без www.

Технически можно сказать, что это два разных доменных имени и если сильно захотеть можно показывать по ним разные страницы. Поисковые системы знают об этом, но люди часто об этом не знают и поэтому поисковая система может сканировать одну и ту же страницу здесь и здесь и воспринимать их как разные страницы. Потому что у них отличаются url-адреса.

К чему это может привести? Поисковая система проиндексировала страницу с www раньше чем без www значит здесь она будет уникальной, а здесь уже будет как бы копия контента. Мы можем как-то продвигать вот эту страницу на домене без www вкладывать какие-то средства, но иметь низкие позиции просто потому, что поисковик считает вот этот контент уникальным, а этот контент копированным.

Плюс у нас появляется огромное количество дублей на сайте и каждая наша страница дублируется и это усложняет процесс продвижения, потому что поисковики начинают воспринимать наш сайт как некачественный ресурс.

Как решить такую проблему? Во-первых, обязательно прописать хост. То есть мы пишем host, указываем здесь основное доменное имя сайта. При этом неважно используете вы домен с www или без. Это ни на что не влияет, это не дает никаких плюсов, никаких минусов, просто как вам больше нравится.

И обязательно прописываете 301 redirect. Причем постраничный с дополнительного домена на основной домен. То есть, если у меня, допустим, основной домен с www, то значит я с домена без www делаю redirect на домен с www.

Помните, что redirect должен указывать на тот же домен, который вы пишете в host, чтобы у вас не было здесь никакого конфликта. Крайне важно как для Гугла так и для Яндекса, чтобы у вас был настроен вот этот redirect, чтобы ваш сайт был доступен только по основному доменному имени. Дополнительное доменное имя редиректит на основное, и для Яндекса прописать host в robots.txt. Но в принципе надо сделать и то и другое для того, чтобы полностью себя обезопасить.

– команда sitemap

Еще одна команда в файле robots.txt, которую нам нужно знать это команда sitemap. Она на самом деле очень простая – мы просто в конце файла robots.txt должны написать sitemap: и указать адрес, где лежит наша карта сайта. Причем речь здесь идет о технической карте сайта, обычно ее так и называют sitemap.

– команда Clean-param

Команда Clean-param позволяет исключить из индексации страницы с динамическими параметрами. Подобные страницы могут отдавать одинаковое содержимое, имея различные URL страницы. Проще говоря, будто страница доступна по разным адресам. Наша задача убрать все лишние динамические адреса, которых может быть миллион. Для этого исключаем все динамические параметры, используя в robots.txt директиву Clean-param.

Синтаксис директивы Clean-param:

Clean-param: parm1[&parm2&parm3&parm4&..&parmn] [Путь]

Рассмотрим на примере страницы со следующим URL:

www.mysite.ru/page.html?&parm1=1&parm2=2&parm3=3

Пример robots.txt Clean-param:

Clean-param: parm1&parm2&parm3 /page.html # только для page.html

или

Clean-param: parm1&parm2&parm3 / # для всех

– команда Crawl-delay

Данная инструкция позволяет снизить нагрузку на сервер, если роботы слишком часто заходят на ваш сайт. Данная директива актуальна в основном для сайтов с большим объемом страниц. В 99% случаев эту директиву использовать НЕ НУЖНО. Если сомневаетесь, то ТОЧНО не используйте.

Пример robots.txt Crawl-delay:

User-agent: Yandex
Disallow: /page
Crawl-delay: 3

В данном случае мы «просим» роботов яндекса скачивать страницы нашего сайта не чаще, чем один раз в три секунды. Некоторые поисковые системы поддерживают формат дробных чисел в качестве параметра директивы Crawl-delay robots.txt.

Что лучше – файл robots.txt или метатег robots с noindex?

Об этом читайте тут.

Как полностью закрыть индексацию сайта

Иногда возникает необходимость полностью закрыть сайт от индексации, либо наоборот полностью открыть сайт для индексации. Рассмотрим для начала как полностью закрыть сайт от индексации. Для этого обычно используется команда disallow и есть два вида синтаксиса, как мы можем закрыть весь сайт. Мы можем написать

disallow: / #означает запрет индексации всего, что лежит на сайте.
disallow: * #не индексировать, если адрес состоит из любого набора символов.

Поскольку все адреса состоят из любого набора символов, то все адреса на сайте будут закрыты от индексации и ни одна страница не попадет в индекс. По сути disallow:/ и disallow:* в результате сделают одно и то же – все страницы будут закрыты от индексации.

Зачем нам это нужно? Особенно это полезно на стадии разработки сайта. Мы уже узнали, что недоработанные страницы, к примеру, пустые страницы, страницы без контента, поисковая система воспринимает как некачественные. Также мы узнали, что поисковик не любит, когда какие-то страницы внезапно пропадают на сайте или появляются без редиректа, а вы их удаляете или куда-то переносите. Подробнее также почитайте про ошибки и проблемы индексирования, о которых знают не все.

Но так часто бывает, когда вы разрабатываете сайт непосредственно на домене, то есть не закрывая его от индексации. Часто люди покупают домен, заливают туда какую-то систему управления контентом, начинают разработку сайта, но еще не наполнили сайт контентом, большинство категорий пустые, большинство статей или товаров пустые, или содержится какой-то дублирующий контент, ну или откуда-то скопированный.

И поисковая система на этой стадии может проиндексировать ваш сайт и посчитать сайт некачественным. И после этого вы уже замените контент, сделаете нормальные категории, вы уже доработаете сайт, но google может не давать вам позиции потому, что он уже посчитал ваш сайт некачественным.

И вот этот пересмотр, переоценка сайта может занимать очень большое количество времени. Поэтому крайне желательно во время разработки сайта закрывать его от индексации. В целом, об индексации новых сайтов я писал тут и тут.

Это если идет речь о новых сайтах, не надо закрывать от индексации старые сайты просто если вы ведете технические работы. Но если вы разрабатываете новый сайт сразу на домене – обязательно закройте его от индексации на период разработки. Чтобы закончить его, наполнить контентом, сделать все нужные категории, заполнить их и после этого открыть для индексации. На примере этого сайта можете ознакомиться как он запускался.

Как полностью открыть сайт для индексирования

Как открыть для индексации весь сайт, здесь очень просто. Самый простой способ мы пишем пустой Disallow:, то есть просто Disallow: и ничего не пишем.

User-agent: * 
Disallow:

Disallow пусто означает ничего не запрещено, значит открыто все и можно сканировать весь сайт. Либо же вот так:

Allow: *      #означает все разрешено
Allow: /      # означает все разрешено

Очень часто, если у вас сайт маленький 20-25 страниц, какой-то корпоративный небольшой ресурс, вам просто нечего закрывать от индексации, внутреннего поиска у вас нет никаких сортировок, версий для печати или чего-то подобного у вас нет и надо все открыть для индексации. Все очень просто. Это базовые настройки файла robots.txt, как с ним работать, как его правильно настраивать.

Можно ли использовать готовые или чужие файлы robots.txt?

Надо понимать, что файл robots.txt индивидуально составляется для каждого отдельного сайта. То есть, если вы просто возьмете robots.txt другого сайта и скопируйте себе, это ничего не даст, потому что у вас страницы сортировки могут генерироваться как-то по-другому, у них будут другие адреса, а значит и правила под них нужно писать соответствующие.

То есть нельзя просто взять и скопировать чужие правила, за исключением стандартных правил для каких-то cms систем, то есть для каких движков. Есть стандартное правило, которое используется под битрикс, под wordpress, под джумлу, под drupal, под мадженту. В зависимости от вашей системы обычно у вас сразу есть уже какой-то файл robots.txt и есть набор стандартных правил, который запрещает служебные файлы и некоторые дубли.

Но далеко не всегда этот набор стандартных правил идеально подходит для вашего сайта. Есть нюансы и надо понимать, что вы запрещаете и зачем это делаете.

Мой вам совет, перед тем как продвигать сайт, когда вы его начинаете оптимизировать обязательно просматривайте файл robots.txt и постарайтесь разобраться в каждом правиле, что оно запрещает и зачем.

Потому что иногда бывают просто какие-то странные вещи, когда, например, полностью закрыты от индексации изображения (хотя для вас это важно, чтобы они были в индексе). Или закрыты от индексации фильтры, а вы используете страницы фильтрации как посадочные страницы под семантику. То есть проверяйте обязательно в файле robots.txt доступны ли для индексации те страницы, которые вам важны.

Сервисы проверки файла robots.txt на ошибки

Для того, чтобы проверить robots.txt на правильность и отсутствие ошибок, можно воспользоваться сервисами Яндекса и Googla:

Проверка файла robots.txt в Яндекс.Вебмастер: http://webmaster.yandex.ru/robots.xml

Проверка файла robots.txt в Google: https://www.google.com/webmasters/tools/siteoverview?hl=ru

2 Комментарии

WebActiv 20.06.2018 в 12:30

Регулярно я посещаю многие ресурсы, чтобы
читать обзоры!!! Но этот конкретный веб ресурс отличается от остальных
хорошим качеством преподнесения информации!

Ответить
Администратор 22.06.2018 в 11:43

Спасибо, для Вас стараюсь)

Ответить

Оставьте комментарий Отменить ответ

Пожалуйста, введите Ваш комментарий

Пожалуйста, введите Ваше имя здесь

Вы ввели неверный адрес электронной почты

Введите адрес электронной почты

Файл robots.txt – зачем он нужен, как его создать и настроить

Зачем управлять индексацией сайта?

Какие страницы нужно скрывать от индексации?

Что такое файл robots.txt и где он находится

Команды файла robots.txt

– команда disallow

– команда allow

– команда sitemap

– команда Clean-param

– команда Crawl-delay

Что лучше – файл robots.txt или метатег robots с noindex?

Как полностью закрыть индексацию сайта

Как полностью открыть сайт для индексирования

Можно ли использовать готовые или чужие файлы robots.txt?

Сервисы проверки файла robots.txt на ошибки

Свидетельство о регистрации СМИ в РКН: ЭЛ № ФС77-83818 от 29.08.2022

2 Комментарии

Оставьте комментарий Отменить ответ

Как выбрать Pod-систему

Realme GT 5G принес 100 миллионов юаней выручки за первые 10 секунд продаж

Интересные факты о Pixel 5a и Pixel 6

Motorola Moto G30 и Moto G10 Power выпущены: стоимость, технические характеристики и доступность

Продажи Samsung Galaxy S21 достигли четырехлетнего максимума для флагманской серии

Также на эту тему

Category

Links

Stay connected