Пятница, 29 марта, 2024

Алгоритмы и искусственный интеллект. Семинар Яндекс.Дзена

Софт и игры
Вячеслав Питель
Вячеслав Питель
Редактор сайта, опыт работы 10 лет, пишу на тему гаджетов, новостей в мире технологий, игр и софта admin@uspei.com, VK, OK, сот. 89132476241

Здравствуйте, уважаемые читатели сайта Uspei.com. 21 мая 2018 Николай Муравьев – сотрудник службы поддержки Яндекс.Дзена рассказал об алгоритмах ранжирования пользовательских материалов:

Искусственный интеллект – основа алгоритмов Яндекс.Дзена

“Меня зовут Николай, я работаю менеджером службы поддержки и сегодня я буду рассказывать про то, как алгоритм рекомендует ваши материалы, и как они получают дополнительный охват.Искусственный интеллект - основа алгоритмов Яндекс.Дзена

Рыбки

В основе алгоритмов Дзена лежит искусственный интеллект и работает он на 2 технологиях фильтрации.

  1. Фильтрация по содержимому публикаций;
  2. Фильтрация коллаборативная.

Вот эти две рыбки постоянно трудятся для того, чтобы разорвать пользовательский пузырь, в который их постоянно загоняют социальные сети.

Потому что в социальных сетях вы постоянно дизлайкайте что-то от друзей и информационный коллапс постоянно сжимается.

– Фильтрация по содержимому

Любой объект в интернете можно как-то характеризовать, можно присвоить ему какие-то признаки, жанры. Например, когда Netflix запускал свой сервис он расширил достаточно стандартное понимание жанра 10 тематик до 77000. В Нетфликсе можно находить такие фильмы как “культовые ужастики со злыми детьми”, например.

Разумеется, большинство этих жанров пользователи не видят, но это помогает как можно более точно учитывать интересы зрителей.

Соответственно, у нас жанров нет, но каждая публикация, которая попадает в Дзэн, будь-то вручную сформированная или она пришла через rss от издателей или мы ее просто нашли в поиске – она встает в очередь на анализ.

С этим, собственно, связано то, что публикация после создания не сразу попадает в ленты пользователям. Плюс после того, как мы разложили все эти публикации по полочкам на различные характеристики, мы можем сравнивать эти материалы между собой и, например, понимать, что если пользователю нравится один какой-то объект, то ему, скорее всего, понравится еще похожий.

Мы пошли еще дальше и на основе этого, если очень много характеристик совпадает, то можно говорить уже о смысловом дубле. Так мы выявляем рерайты и стараемся поменьше показывать одному пользователю каких-то одинаковых материалов на одну и ту же тему. Потому что, если он один раз прочитал эту статью, пересказ этой же статьи другими словами ему уже меньше интересен.

Многие авторы распускают мифы о Яндекс.Дзене – чтобы не обманываться, ознакомьтесь с этой статьей.
 Фильтрация по содержимому

– Коллаборативная фильтрация

Что происходит дальше? Мы на основе каких-то данных, имеющихся у Яндекса, понимаем, что пользователь, например, посещает определенные сайты чаще, чем другие. Для этого у Яндекса есть Яндекс-браузер, поиск и Яндекс.Метрика. Каждый из них собирает обезличенную информацию, каждому пользователю присваивается номер, за которым хранится история.

Давайте на достаточно примитивном примере рассмотрим, как вообще работает коллаборативная фильтрация.

Например, у нас есть Алиса и Родион, Родиону нравятся “Звездные войны” и “Робокоп”, а Алисе нравятся “Звездные войны” и “Титаник”. У нас задача при помощи коллаборативной фильтрации определить понравится ли, например, Алисе “Терминатор” или нет.

С одной стороны, мы считаем, что Алиса и Родион очень похожи, потому что они на базовом уровне положительно оценили “Звездные войны”. С другой стороны Радион оценил “Терминатора”. Но мы знаем на основе предыдущего анализа, что пользователям, которые любят “Робокопа” также нравится еще и “Терминатор”.

Поэтому мы предполагаем, что Радион положительно оценивает “Терминатора” и Алиса, как похожий пользователь, тоже делает так же.

Коллаборативная фильтрация

Можно ли все доверить машинным алгоритмам?

Собственно, так работает вторичный этап в Яндекс.Дзене. После того, как мы проанализировали все материалы, мы смотрим на то, как пользователи взаимодействуют с ними, и за счет этого публикации могут получить дополнительный охват. За счет того, что мы ищем похожих пользователей.

Если все так прекрасно и идеально и машины постоянно учатся на пользовательских каких-то метках, почему же нельзя это просто оставить на машины и пусть они сами себе работают, анализируют, смотрят на лайки и просмотры?

Собственно, первый ответ достаточно прост – машины очень глупые. Что говорить о машине, если даже не все люди могут отличить булку хлеба от булок корги. Машине постоянно нужно добавлять какие-то свежие образы, какие-то базовые модели, от которых она будет отталкиваться.

Кроме того, машины очень бездушны и многие злоумышленники и спамеры этим пользуются. Например, можно вспомнить, как Microsoft пытался для Twitter запускать своего бота, тоже на искусственном интеллекте. И где-то примерно за сутки пользователи научили его ненавидеть евреев и считать что Гитлер лучший человек на земле. После этого microsoft его быстренько прикрыл на переобучение.

Соответственно, вот эта постоянная борьба спамеров и вредителей, которые пытаются вопреки интересам пользователей протолкнуть свои какие-то материалы и с другой стороны наших разработчиков и наших машин ведется постоянно.

– Армия асессоров и Яндекс.Толока для анализа контента

На что мы смотрим, для того чтобы понять, что где-то произошла утечка.

  1. Собственно, у нас в ленте рекомендации на каждую карточку на любую ссылку, которая попадается пользователю, можно пожаловаться. После дизлайка появляется кнопка “Пожаловаться” там можно выбрать какую-то причину. Ну и плюс мы добавляем эту кнопку теперь уже в каждую публикацию, если она создана на Дзен платформе.
  1. Есть и более автоматические способы выявлять не очень качественные материалы. Например, пользователь, если он зашел в публикацию и очень быстро вышел обратно в ленту, это достаточно серьезный признак того, что что-то с этой публикацией не так.

Возможно, ожидания пользователей были обмануты, пользователь думал, что внутри скрывается что-то другое. Ну, то есть закрадывается подозрение, что это публикация – кликбейт.

Такие сомнительные материалы, в которых сомневается машина, в которых что-то происходит странное – отправляются на асессорскую оценку.

У Яндекса для этого есть специальный сервис Яндекс-Толока, где работают асессоры.

Что там происходит? Одна публикация, один объект дается большой группе людей на оценку, чтобы они проверили, а соответствует ли эта публикация правилам и требованиям Дзена.

Зачем для этого привлекать так много людей? Для того, чтобы снизить возможность субъективной какой-то оценки, потому что несколько людей дают оценку со своим субъективным мнением, но общая оценка получается достаточно правильная.

И плюс ко всему, если мы замечаем, что какой-то из асессоров регулярно дает неправильный ответ, неправильную оценку, которая в итоговом как бы результате отличается от его мнения, мы его снимаем с этого задания, ему больше оценка Дзен материалов не попадет.

Как увеличить охват и показы в Яндекс.Дзене

Собственно давайте подведем итоги, кто же вообще влияет на то, как получает охват ваш блог, ваш канал.

Влияние машин:

  1. Анализирует содержимое статьи;
  2. Подбирает начальную аудиторию.

Влияние авторов:

  1. Умение подать свой материал;
  2. Заинтересовать читателя, чтобы он кликнул;
  3. Удержать читателя хотя бы 40 секунд или без дизлайка.

С одной стороны, робот анализирует все ваши материалы и подбирает первую аудиторию, которой (чисто гипотетически) должно понравиться содержимое. Именно содержимое. Машина беспристрастная, я уже сказал, что она не понимает где чувства, картинка красивая или некрасивая.

Дальше этот материал попадает людям в ленту рекомендаций, и тут начинает работать уже ваше умение подавать материал.

Потому что, для того чтобы понять, что внутри действительно что-то интересное, пользователь должен заинтересоваться и это уже зависит от того, как вы подберете картинку, насколько она точная, яркая и насколько она понятна. О том, как правильно оптимизировать изображения для сайта читайте тут.

И то же самое к заголовку – он не должен обманывать, он должен быть при этом достаточно привлекательным. Почитайте также общие рекомендации по оформлению и форматированию текстов для сайта.

Но в Дзене помимо того, чтобы привлечь пользователя просто кликнуть, мы учитываем еще “дочитывание”, то есть, сколько пользователь провел времени в публикации. Поэтому с вашей стороны, конечно же, очень важно удерживать пользователей внутри, а не просто заставить его кликнуть. Буквально вчера для всех авторов мы добавили возможность просмотра детальной статистики – “Карма канала”.

На основе всего этого алгоритм ищет похожих людей и тогда у вас появляется все больший охват. Возможно вы замечали сами, что если вашей публикации начинают лайкать, то и показы и просмотры тоже растут.

Свидетельство о регистрации СМИ в РКН: ЭЛ № ФС77-83818 от 29.08.2022

2 Комментарии

  1. Познавательно! Но, “споткнуло” начало статьи, напоминающее гугл-перевод с английского.
    “Меня зовут Николай, я работаю менеджером службы поддержки и сегодня я буду рассказывать про то, как алгоритм рекомендует ваши материалы, и как они получают дополнительный охват.”
    По русски: “Здравствуйте! Я Николай, менеджер службы поддержки Яндекса. Сегодня расскажу о том, как алгоритм может рекомендовать ваши материалы и продвигать дополнительный охват аудитории”.

    • Василий, привет. Именно так и начал Николай свой доклад)) https://youtu.be/GX_8bNZKfVA?t=12m22s
      Так как это дословная тестовая версия представителя Яндекс.Дзен, никаких изменений я не вносил.

Оставьте комментарий

Пожалуйста, введите Ваш комментарий
Пожалуйста, введите Ваше имя здесь

Гаджеты

Как выбрать Pod-систему

Если вы решили перейти с сигарет на вейпинг и выбираете свою первую Pod-систему, есть несколько важных аспектов, на которые...

Также на эту тему