Здравствуйте, уважаемые читатели сайта Uspei.com. Что такое файл sitemap и зачем он нужен? Это специальный файл, обычно сейчас его делают в формате xml, который содержит перечень всех страниц, которые мы хотим, чтобы поисковая система проиндексировала.
То есть, если файл robots.txt запрещал что-то индексировать, то файл sitemap наоборот, как бы позволяет нам сообщить поисковой системе: вот мои странички, которые я хочу, чтобы ты поисковая система проиндексировала. Помимо самого перечня, для каждой страницы мы можем давать дополнительные данные.
Примеры и различные виды карт сайта sitemap.xml
Давайте посмотрим, как это делают какие-нибудь крупные сайты. Посмотрим на команду sitemap на примере файла robots.txt сайта microsoft.com. Видите, у них тут большое количество разных запретов и разрешений, вот команда alllow команда disallow, на microsoft большое количество разных запретов.
И вот в самом конце мы видим несколько команд sitemap, тут мы не увидим команду host, потому что в западном сегменте интернета редко можно встретить эту команду, она в основном для Яндекса.
А вот sitemap наоборот важен для всех поисковых систем как для Гугла так и для Яндекса. Так вот, мы видим команду sitemap и видим, собственно, ссылки на несколько карт сайта. Вот пример того, как выглядит карта сайта на сайте microsoft.com.
У всех она выглядит (и часто называется) по-разному, это зависит от того, каким образом она создана, каким плагином. У меня вот так:
То есть это перечень страниц, как вы видите, и каждая страница еще сопровождается дополнительными данными. Дополнительные данные могут быть разнообразными, но в основном они говорят о том, как часто ту или иную страницу нужно индексировать. Повторюсь – это ЧИСТО технический файл для управления индексацией.
Свойства карты сайта sitemap.xml
Самым важным и самым востребованным на данный момент свойством, которым можно сообщать в файле sitemap является свойство last mod. То есть last modification – дата последнего изменения страницы.
Помимо параметров last mod есть и другие параметры файла sitemap, у них можно почитать на сайте sitemaps.org, можно подробно узнать какие есть свойства, что мы можем рассказать о своей странице в карте сайта. Так вот почему нам так важен параметр last mod. Потому что он позволяет наиболее гибко и наиболее эффективно управлять индексация нашего сайта.
Давайте рассмотрим, как это работает. Предположим, на нашем сайте нет ни файла robots.txt ни файла sitemap. То есть просто какой-то сайт, на нем какие-то странички.
И вот поисковый бот в очередной раз приходит индексировать наш сайт. Мы говорили о том, что поисковый бот перепроверяет все страницы рано или поздно, google делает это в среднем раз в неделю. Он заходит, но не проверяет все страницы сайта за один день, он заходит и сканирует какие-то страницы. При этом он внутри своего алгоритма рассчитывает некие квоты.
То есть он понимает, что с этого сайта он просканирует, скажем, 200 страниц в неделю или 1000 страниц в месяц. С этого сайта больше, с этого меньше – в зависимости от авторитета сайта, частоты обновления контента на этом сайте. Может миллион в сутки просканировать, если его не отвлекать на дубликаты страниц.
То есть, если в нашем сайте 1000 страниц совершенно не значит, что если к нам пришел поисковый бот, он проиндексирует тысячу страниц за один день. Он вполне возможно проиндексирует только часть. И нам бы хотелось, чтобы он проиндексировал те страницы, которые для нас наиболее важны, которые изменились, и мы хотим, чтобы эти изменения поисковик уже увидел.
Но если у нас нет файла robots.txt, нет файла sitemap – бот придет и будет индексировать что захочет. Он зайдет в свои любимые сортировки или в какие-то старые статьи и будет их индексировать. Если у нас есть файл robots.txt мы можем сказать поисковому боту, куда ходить не надо. То есть он уже не пойдет индексировать сортировки, а значит, мы сэкономим его ресурс и он уже пойдет индексировать действительно важные страницы.
Но как я говорил, google особенно часто любит просто авторитетные страницы. Он может пойти переиндексировать старые товары или старые статьи какие-нибудь просто перепроверить как они себя чувствуют, а мы, к примеру, выложили новые товары или новые статьи на сайт и хотели бы, чтобы именно эти страницы были проиндексированы.
Так вот, если в файле robots.txt у нас есть sitemap и у нас есть параметр last mod, тогда поисковик смотрит: а какие страницы изменились с даты последней индексации? К примеру, если в последний раз google приходил в понедельник, а сегодня среда он придет и посмотрит, а какие страницы изменились понедельник? Он видит это по дате последнего изменения. И тогда он начнет свою сессию индексации с этих измененных страниц.
Вначале проиндексирует их, а потом уже пойдет индексировать свои любимые старые товары или старые статьи если у него останется время из выделенного на ваш сайт лимита. Таким образом, связка robots.txt плюс sitemap позволит нам значительно быстрее отправлять в индекс вот эти новые странички, которые у нас только появились, либо странички, которые недавно были изменены. Это позволит нам быстрее получать позиции по этим новым товарным предложениям, ну либо быстрее видеть эффект от оптимизации этих страниц, которые мы как-то изменили.
Помните о том, что сама скорость индексации не влияет на позицию, но если страница не проиндексирована, то мы не увидим вообще никаких позиций, потому что просто этой страницы нет в базе данных поисковиков.
Периодичность обновления карты сайта
Так вот, для того чтобы эта связка классно работала, нам надо еще знать об одном моменте. Вот эту карту сайта sitemap крайне желательно для более менее больших сайтов и даже для средних сайтов обновлять достаточно периодично – хотя бы 1 раз в неделю, лучше каждый день ночью. Это касается карт созданных вручную, так как сейчас 90% карт создаются плагинами.
Допустим, когда ваш сервер наименее загружен можно обновлять вот эту карту сайта. Почему? Чтобы в ней были актуальные данные последнего изменения. Некоторые считают, что поскольку last mod на что-то влияет, то надо ставить его всегда последней датой, то есть каждый день у них стоит, что сегодня они изменились.
Не стоит этого делать. Если вы будете показывать поисковой системе, что сегодня изменились все страницы, и так будет происходить постоянно, то поисковик, перепроверяя в очередной раз страницы, увидит, что вы сказали “страница изменилась”, а на самом деле она не изменилась и поисковик начнет игнорировать данный last mod, потому что он не корректный.
Если он начнет это делать, то вы лишитесь очень мощного инструмента по управлению индексацией, поэтому надо обновлять sitemap регулярно, скажем, каждый день, но обновлять его правдивыми данными. На моем скриншоте выше у всех постов стоит одна дата изменения, так как перед снятием скриншота я недавно обновил все статьи для пересчета внутренних ссылок.
Если эта страница не менялась уже полгода в этом нет ничего страшного – сообщите об этом. Если какая-то страница изменилась вчера, как раз об этом и сообщите и поисковик ее быстрее переиндексирует.
Лучше не допускать различных ошибок индексации, иначе будут проблемы и негативные последствия.