Основные принципы SEO и как работают поисковые системы


Здравствуйте, уважаемые читатели сайта Uspei.com. Сегодня мы поговорим о базовых принципах работы поисковой системы. Почему мы начинаем с базовых принципов? Потому, что мы собираемся работать со сложной системой - с поисковым алгоритмом, с поисковой системой. И для того, чтобы как-то на этот алгоритм влиять нам необходимо хотя бы базово понимать, как он устроен, как устроена вся система.

Как происходит процесс поиска информации

Первое, что мы должны узнать - поисковая система ищет не совсем в интернете. Поисковая система ищет по своей базе данных.

Когда мы вбиваем какой-то запрос в google или яндекс поисковик не начинает бегать по всему интернету и искать для нас страничку. Он обращается к уже собранной и обработанной базе данных, в которой хранятся миллионы и миллиарды разнообразных страниц.

Основные принципы SEO

К оглавлению ↑

- Как поисковики пополняют свои базы данных

Откуда они берутся в этой базе данных? Их собирает программа под названием поисковый бот. Этого поискового бота легко представить в виде паучка, который бегает по интернету и сканирует содержание.


Первая часть (планировщик) ищет в этом содержании важные ей элементы (такие как, например, цитируемость или частота обновления документов), выделяет ссылки и направляет работу основной части поискового бота (паук или краулер), выстраивает его маршрут. Главная часть поискового бота занимается регулярным сканированием самого содержания, какого-то текста, картинок, видеофайлов.

То есть поисковый бот зашел на какую-то страничку, просканировал ее содержание (картинки, видео, текст), дальше он видит какую-то ссылку и переходит по ней дальше. Сканирует эту страницу, видит следующую ссылку и таким образом движется в интернете по ссылкам. То есть, поисковый бот движется по ссылкам. Это как бы слепок интернета, который хранится на серверах поисковиков и обновляется при каждом новом обходе пауком.Поисковый бот

После того, как поисковый бот просканировал нашу страницу, на выходе он формирует два файла.

  1. Отсканированое содержание.
  2. Набор ссылок-связей между страницами.

И эта информация уже передается в базу данных. Но перед тем, как сохранить эту информацию в базе данных происходит первичная обработка. Зачем нужна такая обработка? На самом деле поисковой системе, как любому математическому алгоритму, как любой программе, очень тяжело работать с так называемым естественным языком.

То есть, с тем текстовым содержанием, которое создают обычные люди. Даже несмотря на то, что все вебмастера специально оптимизируют свой текстовый контент для поисковых систем (тут подробнее о seo-оформлении текстов), мы должны принять, что поисковая система это математический алгоритм и поэтому поисковику удобнее структурировать эту информацию в набор каких-то меток, по которым можно будет потом быстро произвести поиск.

К оглавлению ↑

- Зачем поисковикам частотные таблицы

Базово можно представить себе, что поисковая система использует такой алгоритм, как составление частотных табличек. То есть поисковая система перед тем как сохранить в базу данных информацию, сканирует страницу и смотрит, какие слова встречались на этой странице и как часто они упоминались на этой странице. И составляет таблицу, в которой выделены все слова и количество их упоминаний. Давайте посмотрим как приблизительно выглядит такая частотная табличка.

Я воспользуюсь инструментом, который называется http://simple-seo-tools.com. Этот инструмент позволяет анализировать страницы и в том числе анализировать частотную таблицу. Страницы он сканирует похожим образом как это делает поисковая система и раскладывает ее содержание на слова.

Возьмем какую-нибудь страницу, например, страницу википедии про поискового бота и проведем анализ. Вот мы видим частотную таблицу, то есть каждое слово выписано и написано какое количество было упоминаний этого слова в тексте и процент плотности.

http://simple-seo-tools.com

Что такое процент плотности? То есть как часто это слово встречалась. Количество упоминаний деленное на количество слов в тексте таким образом рассчитывается процент плотности.

Зачем поисковой системе вот эта частотная таблица. На самом деле частотная таблица просто позволяет значительно быстрее проводить поиск той информации, которую ищет пользователь.

К примеру, человек заходит в google и вбивает запрос, например, "поисковый бот" или "купить ноутбук". Поисковой системе уже не приходится проверять все страницы, которые есть в базе данных на наличие этих слов. Поисковая система просто просматривает частотные таблицы соответствующих страничек и смотрит - так, здесь встречалось слово "поисковый" и встречалось слово "бот". И встречались они достаточно часто. Возможно, эта страница про поискового бота. Если же в частотной таблице эти слова встречались на странице достаточно редко, либо не встречались вообще, то эта страница точно не про поискового бота.

К оглавлению ↑

- Что такое поисковый индекс и индексация

Таким образом, поисковой системе не приходится заново вычитывать содержание страницы. На основании вот этой частотной таблички поисковая система может быстро сделать выборку потенциально подходящих страниц, которые ищет пользователь.

Приблизительно так мы можем себе представить эту первичную обработку. И уже в базу данных сохраняется 3 файла.

  1. Файл первичного отсканированного содержания;
  2. Набор ссылок;
  3. Набор маркеров, который был сформирован перед сохранением в базу.
Смотрите также:  Смена структуры или дизайна сайта. Риски обновления сайта

Вот эту первичную обработку производит программа, которая называется индексер. А база данных, в которой хранится вся эта информация, называется поисковый индекс.

Процесс сканирования и попадания в эту базу данных называется индексация. Просто такие термины. Seo-шники любят очень страшные слова (мы ещё об этом поговорим) и вот первых два страшных слова это поисковый индекс и индексация. В этих  трех статьях я полностью раскрыл настройку индексирования нового сайта, можете почитать.

Формирование индекса


Что мы должны из этого всего выделить для себя, какие практические моменты. Первый практический момент. Поисковая система на самом деле ищет не в интернете, а по базе данных, по поисковому индексу. Если нашего сайта нет в этом самом поисковым индексе, то, естественно, его не будет и в результатах поиска. А значит первичная задача любого seo-шника сделать так, чтобы все страницы нашего сайта были проиндексированы.

К оглавлению ↑

Как заставить поисковики проиндексировать ваш сайт

Как это сделать мы уже можем понять если немножко задумаемся. Мы знаем, что поисковый бот движется по ссылкам в интернете. А значит если у нас есть новая страница, о которой поисковая система еще ничего не знает, нам достаточно создать ссылку на эту страницу с уже известной для поисковой системы страницы.

Поисковая система перепроверяет все странички, которые есть у нее в базе данных. Если мы говорим о google, то в данный момент google перепроверяет в среднем каждую страничку раз в неделю. Какие-то чаще, какие-то может перепроверять раз в несколько минут. Какие-то реже, может и 1 раз в месяц перепроверять.

И, перепроверяя страничку, он увидит здесь эту ссылку, перейдет по ней и увидит наш новый сайт. Если же мы оптимизировали структуру нашего сайта и с главной страницы у нас есть ссылки на все остальные внутренние страницы нашего сайта, то поисковая система просканирует весь наш сайт.

К оглавлению ↑

- Расставляем в интернете ссылки на наш сайт

Ссылки в соцсетях

Очень важно, если вы хотите присутствовать в результатах поиска, первое что вы должны сделать это проверить проиндексирован ли ваш сайт. Если еще нет и вы хотите, чтобы он был проиндексирован во-первых, проверьте свой сайт на ошибки индексирования, которые часто допускают вебмастера, а затем создайте ссылку, с какого-то уже большого известного сайта на свой сайт.

Например, с социальной сети или с какого-то сайта (еще непонятно, что эффективнее), доски объявлений или с какого-то крупного каталога. Это достаточно легко - зарегистрироваться и оставить ссылку. Если мы задумаемся, то поймем, что чем больше ссылок с больших известных поисковой системе ресурсов мы создадим на свой сайт, тем больше вероятность, что поисковый бот придет к нам и проиндексирует наш сайт.

Отдельно можно сообщить поисковой системе о том, что мы открыли новый сайт и пригласить поискового бота. Но об этом мы поговорим позже. Самый же простой способ это создать просто ссылки-пути для поискового бота, которые позволят ему прийти и начать сканирование вашего сайта. Можете почитать, как я запускал с нуля новый сайт на примере этого проекта.

К оглавлению ↑

- Проверяем индексацию сайта

Как проверить наш сайт, он уже просканирован поисковой системой или еще нет? Для этого существует специальная команда, которую используют seo-шники - эта команда "site:". Нужно ввести команду и после : указать доменное имя того сайта, который вы хотите проверить проиндексирован он или нет. Давайте посмотрим, как это выглядит и какие данные мы получаем.

К примеру, сайт ru.wikipedia.org. Давайте посмотрим проиндексирована ли русская википедия и как много страниц на этом сайте знает google. Для этого вводим сайт : и домен как я говорил. Больше всего нас интересует вот эта строчка: результатов примерно 2,38 млн.

Смотрим сколько проиндексировано

Это значит, что в индексе поисковой системы google в этой базе данных присутствует 2,38 млн. страничек, которые были просканированы поисковым ботом гугла.


Нужно понимать, что у каждой поисковой системы свой поисковый индекс и своя база данных. То есть, если у нас в гугле у википедии 2 миллиона страничек, то в яндексе может быть совершенно другая цифра, потому что в яндексе, к примеру, поисковый бот мог просканировать большее или меньшее количество страниц. Естественно, в любой другой поисковой системе та же цифра будет отличаться.

К оглавлению ↑

- Что важнее в индексации: качество или количество?

Как относиться к этой цифре. Вот мы видим на википедии есть 2,38 млн. страниц в индексе. А мы, допустим, вводим свой сайт и видим, что там всего 1000 страниц или может быть даже 20 или 10 страниц. Не надо переживать. Не стоит думать, что чем больше страниц в индексе, тем лучше сайт.

Анализируем индекс сайта

Конечно, большое количество хороших страниц, качественных страниц на сайте это хорошо, но на самом деле, когда мы анализируем количество проиндексированных страниц надо просто понимать сколько их должно быть в яндексе и сколько их в яндексе по факту.

К примеру, если у нас есть интернет магазин и в этом интернет магазине есть 5000 товаров, 100 категории 10 информационных страниц (всего 5110). А в индексе у нас ну, допустим, всего 1000 страниц. То мы должны задать себе вопрос: где еще 4110 страниц? Ведь все товары, все категории и все информационные страницы должны были быть проиндексированы?

Смотрите также:  Как выбрать seo-специалиста, важные моменты

Либо напротив ситуация у нас в индексе, предположим, 10 тысяч страниц. Тогда мы должны задать себе вопрос: откуда взялись еще вот эти 4890 страниц, ведь у нас всего 5110, а проиндексировано 10000. Так тоже бывает. То есть мы должны просто сравнить данные, сколько страниц проиндексировано в поисковой системе и сколько страниц приблизительно у нас на сайте есть важных, которые должны были быть проиндексированы.

И если они не все проиндексированы - это проблема. Если их проиндексировано очень много (больше чем должно быть) это тоже может быть проблема и мы должны попытаться разобраться откуда взялись эти страницы. Может у вас неправильно настроен файл robots.txt и в индекс попали служебные страницы (файлы движка или cms), а может ваша cms создает дубли страниц и они попадают в индекс.

К оглавлению ↑

Анализ индексации сайта операторами

Базово, даже не зная каких-то технических моментов, вы можете проанализировать свой индекс, то есть те страницы, которые проиндексированы на вашем сайте просто визуально. Особенно если их немного. В результатах поиска с оператором "site:" вы просто пролистаете вниз где идут все эти страницы, которые проиндексированы на этом домене. То есть, мы можем сейчас взять и визуально просмотреть вот эти два миллиона страниц. Это конечно займет очень очень много времени. При анализе обращайте внимание, чтобы в индексе не были служебные страницы, страницы с кракозябрами и кодами. В общем, смотрите, чтобы в индексе было только , что необходимо и это необходимое отражалось красиво и лаконично.

Также мы можем посмотреть отдельно на каждую страницу, как она сохранена в результатах поиска в базе данных. Для этого в результатах поиска нам достаточно нажать вот на это небольшое выпадающее меню и нажать на кнопку "сохраненная копия".

смотрим кэш сайта

Если мы нажмём "сохраненная копия" мы увидим ту версию страницы, как она сохранена в базе данных поисковой системы. В данном случае в гугле. И вот здесь сверху мы видим такую приписку "эта версия страницы из кэша google. Она представляет собой снимок страницы по состоянию на 14 января 2018 года" и время. Время и дата это как раз время последней индексации.

смотрим кэш сайта

То есть, когда-то исковой бот пришел на эту страницу, просканировал, обработал и сохранил в базу данных. Вот эта страница последний раз была просканирована 14 января 2018 года. Так мы можем проверить любую страницу. То есть просто в результатах поиска нажав на выпадающее менюшку и нажав "сохраненная копия".


Также мы можем использовать оператор "cache:". Специальный оператор, который позволяет просмотреть сохраненную копию любой странички просто по ее адресу. Для этого в google вбиваем "cache:" и адрес той страницы, которую мы хотим просмотреть, как она сохранена в базе данных поисковой системы.

Либо же через оператор "site:" и сохраненную копию. Эти две базовые команды как раз позволят нам проанализировать информацию об индексации нашего сайта. Сколько страниц было просканировано и в каком виде они хранятся вот в этой самой базе данных.

 

К оглавлению ↑

Что такое поисковая машина?

Но, база данных и поисковый индекс это далеко не вся поисковая система. В поисковой системе существуют еще две очень важных части. Это поисковая машина и веб-сервер. Начнем с более простого с веб-сервера.

Веб-сервер это та часть поисковой системы, в которой мы вводим запрос и получаем ответ. Ну, к примеру, google.com. То есть мы там ввели запрос получили ответ и больше нам, в принципе, как конкретно работает веб-сервер знать не нужно. Нам достаточно понимать: мы ввели запрос - получили ответ, нам этого достаточно.

Что же такое поисковая машина? Поисковая машина сложными словами - это программно-аппаратный комплекс, который занимается сортировкой и анализом результатов поиска. То есть, именно этот узел поисковой системы решает, какая страница будет на первом месте, а какая страница будет на последнем месте.

Если мы возьмем термин seo и расшифруем его: search engine optimization, то мы поймем, что мы занимаемся как раз внутренней оптимизацией сайтов под поисковые машины.

Для того, чтобы разобраться как же работает поисковая машина, надо разобраться в двух понятиях.

  1. Релевантность.
  2. Ранжирование.
К оглавлению ↑

- Что такое релевантность

Ближайший синоним к слову релевантность - это слово адекватность или от английского соответствие. Поисковая система ищет для нас соответствующие или адекватные релевантные результаты поиска. Почему? Потому, что мы часто задаем поисковой системе неадекватные и непонятные вопросы.

Пример релевантности по запросу "гольф"

К примеру, мы можем зайти в поисковую систему и вбить такой запрос как "гольф". При этом, что мы подразумеваем под этим запросом поисковой машине мы не объясняем. "Гольф" это может быть вид спорта, это может быть volkswagen golf автомобиль, это может быть торговая марка одежды. Но мы хотим получить ровно тот ответ, который подразумеваем мы, который держим у себя в голове.

И если поисковая система ответит нам как-то не так как мы хотим, мы будем считать, что поисковая система не справилась. Будем считать такую поисковую систему плохой. Так вот, google, учитывая более 200 разнообразных факторов, пытается дополнить наш вопрос и понять, что мы хотели увидеть и дать нам конкретную адекватную информацию относительно нашего запроса.

Смотрите также:  Что такое пагинация (pagination) и как оптимизировать разметку страниц

Давайте проверим, что же гугл нам выдаст по запросу "гольф". И мы видим, что он нам дает информацию в основном о виде спорта и фольксвагене.

Релевантность запроса гольф

Почему? Потому что google понимает: носки и кофты ищут немножко другими словами и словосочетаниями, а под этим термином люди чаще всего понимают либо вид спорта, либо volkswagen. Если мы вобьем этот запрос в какой-то другой стране, результаты поиска будут отличаться, потому что предпочтение пользователей в другой стране могут отличаться. И там будет больше информации про вид спорта гольф меньше информации про volkswagen.

Таким образом, мы можем понять, что поисковая система не просто ищет для нас странички, где упоминается какое-то слово. Поисковик пытается понять, что конкретно мы искали и предоставить нам вот ту самую релевантную страницу результатов поиска.

Поисковик не просто ищет страницы с упоминанием слов, он пытается ответить на вопрос, который мы ввели. Дать нам какую-то полезную информацию.

Пример релевантности по запросу "Киев"

Давайте рассмотрим ещё один пример релевантности на примере запроса "Киев". Вот мы вводим запрос "Киев". Что мы видим перед собой. Мы видим страницу результатов поиска. Из чего она состоит?  Вот эти 10 результатов поиска - ссылки на какие-то сайты. Посмотрим, что мы здесь можем увидеть. Первое, это википедия, потом блок с новостями, потом сайт города, новости и два погодных сайта.

Релевантность запроса киев


То есть мы можем здесь увидеть как минимум три набора информации. Общая информация о Киеве, ссылка на энциклопедию, новости и погода. Здесь мы можем вот как раз ярко выражен тот момент, о котором я говорил раньше. Поисковая система не просто подбирает нам странички, на которых упоминается какое-то слово. Поисковая система пытается понять, что мы искали. Поисковик знает, что люди, когда они ищут запрос Киев, чаще всего либо просто хотят узнать об этом городе либо хотят узнать новости в Киеве, либо узнать погоду.

И на основе этого поисковики формируют вот эту подборку ссылок, которая показывается нам в результатах поиска. Вот это и называется релевантность. То есть близость смысла страницы к вопросу, который задал пользователь поисковой системе. Подробнее, что такое релевантность можно ознакомиться в моей одноименной статье.

Это очень важно понимать потому, что некоторые люди думают, что они сегодня, к примеру, создадут ресторан "Киев" и захотят продвигать в поиске способами seo эту страницу в интернете. Но у них вряд ли что-то получится. Вряд ли получится выйти в топ 10, если только этот ресторан не станет самым известным рестораном в городе Киев. Почему? Потому что по запросу Киев гугл знает, что нужно показывать людям новости, погоду и энциклопедию. Это релевантные результаты поиска. По этому запросу не нужно показывать ресторан, потому что люди не ищут этот ресторан на данный момент по запросу Киев.

И, скорее всего, даже если вложить много времени сил и денег в продвижение ресторана по запросу Киев каких-то видимых результатов в данный момент мы не получим. Это и называется релевантность.

К оглавлению ↑

- Что такое ранжирование

РанжированиеОчень важно понимать, когда мы начинаем продвигать свой сайт мы хотим занять позиции по релевантным запросам или не по релевантным запросам.

Для этого достаточно просто посмотреть, что гугл показывает в поиске по этим запросам. Вот эта сортировка по релевантности. А на самом деле основной принцип сортировки результатов поиска это релевантность. На первом месте всегда наиболее лучший ответ, наиболее полный всесторонний ответ на вопрос пользователя.

Так вот эта сортировка по релевантности называется ранжирование. Сам процесс сортировки, такой термин. Сеошники любят страшные слова, потому что страшные слова, когда вы говорите, сразу же можно выглядеть чуть умнее. Вы можете сказать, что у вас проблемы не с ранжированием из-за низкой релевантности, а проблемы с индексацией. И уже звучит значительно лучше.

Ну и вторая причина, почему сеошники используют эти все страшные слова, потому что в принципе информационный поиск, это подраздел науки кибернетика. Там есть много страшных слов и seo-шники позаимствовали множество терминов из этой науки.

К оглавлению ↑

Подводим итог

Подытожим. Какие базовые термины мы сегодня узнали. Мы узнали про поисковый индекс и индексацию. Мы узнали, что если нашего сайта нет в индексе, то нас не будет и в поиске.

Мы узнали, что секрет позиции в гугле или любой другой поисковой системе это хорошая релевантность. То есть качество ответа наших страницы на вопросы пользователя. Насколько хорошо мы отвечаем на вопросы пользователя, и не количество упоминаний какого-то слова, а именно качество ответа.

И мы узнали, что значит ранжирование, то есть сортировка по релевантности.

Это четыре базовых термина в сео. Если вы знаете их, вы уже можете в принципе понять, что вам нужно делать со своим сайтом. Вам нужно удостовериться, что он правильно просканирован и удостовериться, что ваш сайт является качественным ответом на вопросы пользователей.

До встречи! Успевайте всё и всегда на страницах блога Uspei.com

Плюсануть
Поделиться
Класснуть
Линкануть
Запинить

Буду благодарен, если поделитесь новостью в соцсетях

Вам также понравится...

Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *