Ошибки и проблемы индексирования сайта, о которых не все знают



Здравствуйте, уважаемые читатели сайта Uspei.com. Сегодня я расскажу вам как найти и исправить возможные проблемы с индексированием вашего сайта. Рассмотрим три основных момента.

  1. Робот должен индексировать нужные страницы сайта с нужным качественным контентом;
  2. Эти страницы должны индексироваться быстро;
  3. Робот не должен посещать ненужные страницы сайта;

Кажется все довольно просто. Но на самом деле большинство вебмастеров сталкиваются с одними и теми же проблемами при настройке индексирования. Давайте посмотрим на них внимательно.

Ошибки и проблемы индексации сайта

К оглавлению ↑

Индексирование нужного контента и включение его в результаты поиска

Все роботы, которые посещают ваш сайт, как правило, исполнительные и соблюдают те инструкции, которые вы предоставляете для них. Поэтому часто ошибки возникают с тем, что роботу предоставлены некорректные инструкции для индексирования.

Самая главная инструкция для индексирующего робота это файл robots.txt. Это такой служебный файлик, который находится в корне вашего сайта, в котором содержатся инструкции, что можно индексировать и как часто это делать. И также, что нельзя индексировать.

Кажется о файле robots.txt мы уже говорили много много раз. Давайте разберем наиболее частые ошибки.

К оглавлению ↑

- Запрет индексирования нужных страниц

Наиболее распространенная ошибка в robots.txt это запрет нужных страниц для посещения. Представьте себе ситуацию с «AB» тестированием, когда и посетители и робот с главной страницы сайта перенаправляются на какую-то внутреннюю страницу с параметром, где в зависимости от значения параметра страница выводится в том или ином формате. Но часто такую страницу с параметром запрещают в файле robots.txt. В результате чего, и главная страница и страница, куда осуществляется перенаправление, исключаются из поисковой выдачи. Кажется, это не самый лучший вариант. В таком случае обязательно нужно проверить, что нужная страница разрешена к обходу.

Пример: Редирект с главной страницы на внутреннюю страницу с параметром
uspei.com -> uspei.com/post?page=main
Файл robots.txt:
User-agent:*
Disallow: *?*

К оглавлению ↑

- Закрытие от индексирования промежуточных страниц

Вторая по популярности проблема - это закрытие промежуточных страниц для индексирующего робота. В примере ниже страница page.html находится внутри категории. При этом сама категория запрещена к обходу в robots.txt. В такой ситуации, если на страницу не ведут какие-либо доступные роботу ссылки он просто не узнает о ее существовании, не сможет проиндексировать и страница никогда не попадет в поисковую выдачу.

Пример:
uspei.com/category/page.html
Файл robots.txt:
User-agent:*
Disallow: /category/$

К оглавлению ↑

- Неправильное указание главного зеркала

И третья по популярности проблема - это отсутствие либо некорректное указание главного зеркала. Вы, как владелец сайта, либо как маркетолог, принимаете решение по какому именно адресу ваш сайт должен находиться в поисковой выдаче и показываться по запросам пользователей.


Для того, чтобы указать на адрес главного зеркала существует специальная директива в файле robots.txt. Она как раз называется директива host. То есть, вы можете задать роботу адрес вашего сайта, который будет находиться в поиске.

При размещении директивы host нужно обратить внимание на такие моменты как:

  1. Директива должна быть расположена в robots.txt всего один раз.
  2. Сама по себе директива должна быть корректна, то есть включать префикс www или без него.
  3. Обязательно указание протокола http либо https (тут читайте о настройках перехода на https) .
  4. Если вы используете доменное имя на кириллице, обязательно оно должно быть закодировано в punicode.
К оглавлению ↑

- Инструмент "Анализ файла robots.txt"

Инструмент "Анализ файла robots.txt"

Не допустить ошибки в файле robots.txt поможет отличный и постой инструмент Яндекс-вебмастера "Анализатор файла robots.txt". Можно загрузить как уже имеющийся файл, так и просто текстовый документ для проверки его корректности. Загрузили и можно указать адреса страниц, которые вы хотите проверить. Нажали кнопочку проверить и посмотрели на результат. Страницы доступны для обхода роботом - зеленая галочка, или недоступны - красным строка, которая запрещает индексирование.

После того, как робот скачал файл robots.txt он обновляет политики обхода, то есть понимает, что можно индексировать, что нельзя индексировать. Если страницу индексировать можно, он обращается к ней и скачивает ее html-документ.

Сам по себе html-документ для робота выглядит сплошной простыней кода. Это определенный набор тегов, скриптов, css, текстового содержимого, из которого робот достает самые важные части. Во-первых, робот вытаскивает из html-кода ваших страниц мета-теги. Достает текстовое содержимое для того, чтобы понять о чем именно идет речь на странице (о том, как оптимизировать тексты мы обсуждали на этой странице). И получает ссылки на внутренние страницы вашего сайта для того, чтобы в дальнейшем их проиндексировать.

К оглавлению ↑

- Что обязательно нужно проверить в исходном коде страницы сайта

Сама по себе проверка довольно-таки простая. Вам небольшой чек-лист, что именно и как проверять в исходном коде страниц сайта.

  1. Во-первых, как я уже говорил нужно проверить содержимое тегов title и description. Потому что, как правило, из них может формироваться описание вашей страницы в результатах поиска. Открыли в любом браузере исходный код нужной вам страницы, в поиск по содержимому страницы вбиваем title и смотрим где он начинается и заканчивается и собственно его содержимое. Подробнее о title description и keywords читайте в отдельной статье.
  2. Во-вторых, обязательно проверяйте количество открывающих и закрывающих тегов noindex, они должны совпадать. Будете смеяться, но наиболее частая проблема не нахождения страницы по каким либо запросам заключается в том, что на странице в исходном коде расположен тег noindex, который не закрыт. В результате робот просто не видит большую часть содержимого страницы и не может понять о чем собственно речь на странице.
  3. В-третьих, обязательно проверяйте корректность установленных ссылок на внутренние страницы вашего сайта. Если вы используете https протокол, обязательно это протокол должен быть указан. Это же относится и к атрибутам real=canonical если он используется на вашем сайте.
  4. Обратите внимание, что важный контент на страницах не должен загружаться с помощью скриптов либо с помощью аякса. В этом случае робот просто-напросто не получит текстовое содержимое и не поймет, что же вообще за страница и зачем ее включать в поисковую выдачу. Возможно вы хотите скрыть спам?)))
Смотрите также:  Яндекс заменил ТИЦ на ИКС — новый показатель качества сайта
К оглавлению ↑

Ускорение индексирования сайта

Итак, мы предоставили роботу контент, предоставили страницы, которые необходимы индексировать, но в большинстве случаев этого недостаточно. Согласитесь, какой смысл от появления новостной заметки в поиске, если с момента ее размещения на сайте до включения в выдачу прошло несколько недель. Я думаю, что такая новость никому будет не нужна.

Самый главный ваш помощник это файл sitemap. Определенный служебный файл, в котором содержатся адреса страниц, которые роботу необходимо индексировать. В большинстве случаев в современном мире файлы sitemap генерируются автоматически. Либо какими-то специальными плагинами, либо уже встроенными встроенным функционалом вашей cms. Также при желании файл sitemap можно создать вручную. Обычный текстовый файлик с адресами страниц. Легко его редактировать, легко размещать и сообщать о нем роботу.

Небольшой чек-лист о том, как составить файлы sitemap, чтобы он работал на вас и помогал роботу индексировать ваш сайт:

  1. Во-первых, в файл sitemap обязательно нужно добавлять только то, что роботу действительно необходимо индексировать. Например, добавили на сайт новый раздел, обязательно сразу же сообщите о появлении страницы роботу с помощью файла sitemap.
  2. Не допускайте наличие ошибочных адресов в файле sitemap. Дело в том, что эти данные сразу же попадают в базу индексирующего робота и потом могут просто привести к определенным проблемам.
  3. В-третьих, проверяйте время возврата вашего файла sitemap для индексирующего робота. В большинстве случаев плагины cms настроены по умолчанию таким образом, что файл sitemap генерируется каждый раз при обращении к нему. То есть, если на вашем сайте находится несколько сотен тысяч страниц, на генерацию нового файла sitemap может потребоваться несколько минут. И робот, в таком случае, отправив запрос, просто не дождется пока ваш сервер собирает информацию обо всех страницах. Измените этот параметр и обновляйте файл sitemap только тогда, когда на вашем сайте появились действительно новые страницы. Как раз это нужно делать регулярно, потому что робот обнаружит, что вы обновляете свой формат постоянно, что в нем находятся корректные страницы и будет скачивать его чаще.
  4. И последнее. Обязательно до того, как сообщаете о наличии нового файла sitemap роботу проверяйте его на корректность указания. Сделать это можно с помощью также простого инструмента в Яндекс-вебмастере. Можно загрузить уже готовый файл sitemap указав его адрес, например, если вы уже разместили на своем сайте файл. Можно также по текстам и содержимому.

Инструмент "Анализ файла sitemap"Файл sitemap является общепринятым стандартом. В этом файле можно добавлять дополнительную информацию помимо адресов страниц сайта. Например, такую как наличие мобильной версии или альтернативной версии на других языках. В данном случае инструмент "анализ sitemap" показывает ошибку "неизвестный тег image". Вот официальный ответ Яндекса:

"Речь идет о наличии изображения к определенной странице сайта. Не все тэги, которые используются в sitemap может распознать наш индексирующий робот. В таком случае, вы просто видите предупреждение в Яндекс-вебмастере, что скорее всего в файле sitemap находится ошибка. В данном случае ошибку исправлять не нужно, робот просто проигнорирует данный тег. При этом робот пропарсит все адреса страниц и все теги, которые он знает и получит информацию об этом".
К оглавлению ↑

- Директива Crawl-delay

После того, как вы роботу отдали список тех страниц, которые нужно посещать, очень важно, чтобы робот мог без ограничения по частоте обращения к вашему сайту скачивать эти страницы. За частоту запросов со стороны робота отвечает директива Crawl-delay.

Это служебная директива, с помощью которой можно как раз задать интервал между запросами робота страниц сайта. Запомните три правила:


  1. Во-первых, директива не требуется большинству сайтов.
  2. Во-вторых, не используйте директиву без необходимости.
  3. И в третьих, не устанавливайте большие значения в директиву, если все-таки хотите ей воспользоваться.

Например, значение 0,5 говорит о том, что роботу можно отправлять два запроса секунду к страницам сайта. Большинство современных сайтов такую нагрузку со стороны робота обязательно выдержат.

Хочется рассказать небольшой пример и жизни. Однажды мы вместе с владельцем сайта смотрели, почему же его ресурс редко посещается индексирующим роботом. В файле robots.txt была установлена директива Crawl-delay 20. Когда я спросил почему же такая директива, почему такая большая, ответ был следующий: мы посмотрели ее у конкурентов и подумали, что так нам тоже будет лучше. Нет. Не нужно устанавливать директиву Crawl-delay, если она вам не нужна.

К оглавлению ↑

- Инструмент "Переобход страниц"

Еще один отличный инструмент Яндекс-вебмастера "Переобход страниц", который позволяет сообщить роботу о появлений новых страниц на сайте, либо о необходимости проиндексировать повторно уже включенную в выдачу страницу. Воспользуйтесь им - добавляете в него наиболее важные страницы. Например, если у вас проходит в интернет-магазине какая-то акция и вы создали под нее новую страничку добавляете в инструмент и сообщаете о ее появление роботу. Это позволит быстрее попасть в поисковую выдачу. Если вы хотите быстро проиндексировать именно НОВЫЙ, только что запущенный сайт, то прочитайте эту статью.

Смотрите также:  Отладка Турбо-страниц: пошаговая инструкция по настройке и верстке

На текущий момент в большинстве случаев если речь идет о новой странице сайта в поисковую выдачу она появится в течение нескольких десятков минут. Если речь об уже проиндексированных страницах, то это 3-5 дней.

В итоге, чтобы ваш сайт посещался быстро необходимо помнить о трех правилах:

  1. Во-первых, у вас должен быть корректный и регулярно обновляемый файл sitemap;
  2. Во-вторых, не использовать директиву Crawl-delay просто если вам хочется. Прямо сейчас обязательно зайдите в ваш robots.txt и проверьте есть ли такая директива. Если она установлена задумайтесь, действительно ли она вам нужна.
  3. В-третьих, используйте "переобход страниц" для посещения роботом наиболее важных страниц вашего сайта с новой важной страницей.
К оглавлению ↑

Избавляем робота от ненужных страниц сайта

Когда робот начинает посещать ваш ресурс, часто это не всегда положительно влияет на индексирование хороших страниц сайта. Представим ситуацию, допустим, робот совершает 5 запросов в секунду к вашему ресурсу. Кажется отличный результат, но какой смысл из этих пяти посещений в секунду если все они относятся к служебным страницам вашего сайта или дублям и робот совсем не уделяет внимания действительно важным страницам. Об этом наш следующий раздел, как не индексировать ненужные страницы.

  1. Используем раздел Яндекс-вебмастер и статистику обхода
  2. Получаем адреса страниц, которые робот индексировать не должен
  3. Составляем корректный файл robots.txt

Давайте посмотрим на инструмент "Статистика обхода", выглядит он следующим образом. Здесь есть также графики. Нас интересует чуть-чуть пролистать вниз страницу кнопочка "все страницы". Вы увидите все, что посещал робот за последние дни.инструмент "Статистика обхода"

Среди этих страниц если есть какие-то служебные страницы, то их нужно запрещать в файле robots.txt. Что именно нужно запрещать давайте по пунктам.

  1. Во первых, как я говорил ранее, страницы фильтрации, подборов товаров, сортировки нужно запрещать в файле robots.txt.
  2. Во-вторых, обязательно запрещаем страницы различных действий. Например, добавить в сравнение, добавить в избранное, добавить в корзину. Саму страницу с корзиной также запрещаем.
  3. В-третьих, запрещаем к обходу все служебные разделы такие как поиск по сайту, админку вашего ресурса, разделы с данными пользователей. Например, информация о доставке, номера телефонов и прочее также запрещаем в файле robots.txt.
  4. И страницы с идентификаторами, например с utm метками также стоит запретить к обходу в файле robots.txt с помощью директивы Clean-param.

Если вы столкнетесь с вопросом, а нужно ли запрещать или нужно ли открывать эту страницу к обходу, ответьте себе на простой вопрос: нужна ли эта страница пользователям поисковой системы? Если эта страница не должна находиться в поиске по запросам, то ее можно запретить.

И небольшой практический кейс, я надеюсь он вас замотивирует. Смотрите, на одном из ресурсов робот совершает практически тысячи обращений в день к страницам с редиректом. На самом деле, страницы перенаправления это были страницы добавления в корзину.


инструмент "Статистика обхода"

Вносим изменения в файл robots.txt и видно на графике, что обращение к таким страницам практически сошли на нет. При этом, сразу положительная динамика - обход нужных страниц этой странице степи кодом 200 резко возрос.

К оглавлению ↑

- Дубли страниц на сайте, как их найти и что с ними делать

И тут вас поджидает другая опасность - это дубли страниц. Под дублями мы понимаем несколько страниц одного сайта, которые доступны по разным адресам, но при этом содержат абсолютно идентичный контент. Основная опасность дублей заключается в том, что при их наличии может смениться релевантная страница в поисковой выдаче. Может попасть страница по ненужному вам адресу, конкурировать с основной страницей, которую вы продвигаете по каким-либо запросам. Плюс ко всему большое количество дублирующих страниц затрудняет обход сайта индексирующим роботом. В общем, проблем они приносят кучу.

Я думаю, что почти все вебмастера уверены, что именно на их ресурсе нет никаких дублирующих страниц. Хочу немножко вас расстроить. На самом деле дубли есть практически на всех сайтах в рунете. Как найти дубли страниц и что с ними потом делать? Об этом у меня есть подробная статья, прочитав которую, у вас не останется ни одного вопроса.

К оглавлению ↑

- Проверка кода ответа сервера

Помимо файла robots.txt хочется вам еще рассказать о корректных http кодах ответа. Тоже кажется вещи, которые говорили уже неоднократно. Сам по себе http код ответа это определенный статус страницы для индексирующего робота.

  1. http-200 - страницу можно индексировать и включать поиск.
  2. http-404 - значит страница удалена.
  3. http-301 - страница перенаправлена.
  4. http-503 - временно недоступна.

В чем плюс использования инструмента корректных http кодов:

  1. Во-первых, у вас никогда не будет различных битых ссылок на ваш ресурс, то есть тех ссылок, которые ведут на страницы, не отвечающие кодом ответа 200. Если страница не существует значит код ответа 404 это робот поймет.
  2. Во вторых, поможет роботу с планированием обхода действительно нужных страниц, которые отвечают кодом ответа 200.
  3. И в-третьих, позволит избежать попадания различного мусора в поисковую выдачу.

Об этом как раз следующий скрин также из практики. Во время недоступности ресурса и проведения технических работ робот получает заглушку с http кодом ответа 200.Вот как раз описание к этой заглушке вы видите в результатах поиска.http коды

Поскольку страница отвечает кодом ответа 200 они попадают выдачу. Естественно, с таким контентом страницы не могут находиться и показывать по каким-либо запросам. В данном случае правильной настройкой будет http ответа 503. При кратковременной недоступности страницы или ресурса этот код ответа позволит избежать исключения страниц из результатов поиска.

Вот ситуации, когда ваши важные и нужные страницы вашего ресурса становятся недоступными для нашего робота, например, отвечают кодом 503 или 404 либо вместо них возвращается в об эту заглушку.

Смотрите также:  Как продвигать сайт при высокой конкуренции

Такие ситуации можно отследить с помощью инструмента «важные страницы». Добавьте в него те страницы, которые приносят наибольший трафик на ваш ресурс. Настройки уведомления на почту и либо в сервис и вы будете получать информацию о том, что происходит с данной страницей. Какой у нее код ответа, какой у нее заголовок, когда она посещалась и какой статус в поисковой выдаче.

Проверить корректность возврата того или иного кода ответа можно с помощью соответствующего инструмента в Яндекс-вебмастере (тут все о Яндекс-вебмастере). В данном случае проверяем код ответа несуществующих страниц. Я придумал страницу и загнал ее в инструмент, нажал кнопочку проверить и получил 404 ответ.

Проверка ответа сервера


Здесь все в порядке, так как страница была недоступна она корректно ответила 404 кодом и в поиск она уже не попадет. В результате чего, для того, чтобы ограничить посещение роботам не нужных страниц сайта, активно используйте инструмент статистику обхода, вносите изменения в файл robots.txt и следите, чтобы страницы возвращали корректный http код ответа.

- Подводим итог

Мы с вами отдали роботу корректные странице сайта с контентом. Мы добились того, что это индексируется быстро. Запретили роботу индексировать не нужные страницы. Все эти три большие группы задач связаны между собой. То есть, если не ограничивать роботу индексирование служебных страниц, то, скорее всего, у него останется меньше времени на индексирование нужных страниц сайта.

Если робот будет получать контент нужных страниц не в полном объеме, он не будет включать эти страницы в поисковую выдачу быстро. То есть над индексированием вашего ресурса нужно работать в комплексе, над всеми этими тремя задачами. И в этом случае вы добьетесь определенных успехов для того, чтобы нужные страницы быстро попадали в поисковую выдачу.

К оглавлению ↑

Официальные ответы Яндекса

В индекс попали страницы в верхнем регистре при том, что сайт такого рода страниц не содержит. Если страницы попали в верхнем регистре, это скорее всего робот обнаружил ссылки на них где-то в интернете. Проверьте сначала ваш сайт, скорее всего где-то в интернете установлена некорректная ссылка. Робот пришел, увидел ее и начал скачивать страницу в верхнем регистре. Для них, для таких страниц лучше использовать 301 редирект.

Sitemap имеет несколько страниц - это нормально? Если речь едет о sitemap, то есть специальный формат sitemap, в котором можно указывать ссылки на другие файлы sitemap, то конечно нормально.

Если разместить ссылки на все разделы каталога в нижнюю часть сайта, который отображается на всех страницах, это поможет индексации или навредит? На самом деле делать этого совсем не нужно, то есть если это не нужно посетителям вашего сайта, то вносить специально это не нужно. Достаточно просто файла sitemap. Робот узнает о наличии всех этих страниц, добавит их в свою базу.

Нужно ли в sitemap указать периодичность обновления? Файлом sitemap можно передавать дополнительную информацию для индексирующего робота. Помимо самих адресов также наш робот понимает еще несколько тегов. Во-первых, это частота обновления, то есть периодичность обновления. Это приоритет при обходе и дата последнего изменения. Всю эту информацию из файла sitemap он забирает при обработке файла и добавляет в свою базу и использует в дальнейшем для корректировки политик обхода.

Можно ли обойтись без sitemap? Да, следите, чтобы на вашем сайте была прозрачная навигация, чтобы на любую внутреннюю страницу вели доступные ссылки. Но учитывайте, что если это новый ресурс (от автора: о том как запустить новый сайт читайте тут) и, например, какая-то страничка находится глубоко на вашем сайте, например, в 5-10 кликов, то роботу потребуется достаточно много времени, чтобы узнать о ее наличии. Сначала скачать главную страницу сайта, достать ссылки, потом опять скачать те страницы, о которых он узнал и так далее. Файл sitemap позволяет передать роботу информацию обо всех страницах сразу.

Робот делает 700 тысяч запросов в сутки по несуществующим страницам. Прежде всего нужно понять откуда появились такие несуществующие страницы. Возможно некорректно используются относительные ссылки на вашем сайте, либо какой-то раздел удалили окончательно с сайта и робот продолжает все равно проверять такие страницы. В таком случае стоит их просто запретить в файле robots.txt. В течение 12 часов робот перестанет обращаться к таким страницам.


Если служебные страницы проиндексированы, как можно убрать их с поиска. Чтобы убрать страницы из результатов поиска также используйте robots.txt. То есть не имеет значение установили вы запрет при создании вашего сайта, либо уже когда запустили ресурс. Страница пропадет из выдачи в течение недели.

Автогенерируемый sitemap это хорошо или нет? В большинстве случаев все sitemap генерации автоматически, поэтому можно сказать, что это наверное хорошо. Вам не нужно делать что-то своими руками и можете уделить внимание чему-то другому.

Как будет индексироваться страница, если ее сделать канонической саму на себя. Если атрибут canonical ведет на саму же страницу? Такая страница считается канонической? Она будет нормально проиндексирована и включена в поисковую выдачу, то есть использовать такой прием вполне корректно.

Что означает статус "неканоническая"? Значит на странице установлен атрибут canonical, который ведет на другую страницу вашего сайта. Поэтому данная страница в поиск попасть не сможет. Откройте исходный код страницы, сделайте поиск, посмотрите куда ведет canonical и проверяйте каноническую страницу в поиске.

Что правильнее для страницы-корзины запрет в robots.txt или noindex? Если страница запрещена с помощью метода noindex, робот периодически будет посещать ее и проверять наличие данного запрета. Чтобы робот этого не делал, лучше используйте запрет в файле robots.txt.

3

До встречи! Успевайте всё и всегда на страницах блога Uspei.com

Плюсануть
Поделиться
Класснуть
Линкануть
Запинить

Буду благодарен, если поделитесь новостью в соцсетях


Комментарии и отзывы

  1. Екатерина:

    Жду уже месяц индексацию и реакции 0. Может кто разбирался, платформа симпла называется, может из-за нее? Или вообще из-за домена на русском? Сайт http://чистотаикрасота.рф

    • Администратор:

      Екатерина, у вас в файле robots.txt весь сайт закрыт от индексации, поэтому поисковики его и не индексируют. И это к стати, первый пункт "Запрет индексирования нужных страниц" данной статьи.
      http://xn--80aaa3abmzeqfgfbh6d.xn--p1ai/robots.txt :
      User-agent: *
      Disallow: /
      Вам минимум нужно заменить на Allow: /
      А на каком языке ваш домен поисковикам все равно.

    • Лев Абдырвалдрыздатович:

      мета теги настрой, он у тебя в самом днище интернета индексируется

Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *