Новый алгоритм Яндекса «Королев»

22 августа 2017 года Яндекс запустил новый поисковый алгоритм ★ Королев ★
В статье: ✓ видео презентации ✓ значение для SEO ✓ прогноз и рекомендации

Автор статьи: Антон Шабан
QA в отделе SEO

22 августа 2017 Яндекс запустил новую версию поискового алгоритма – «Королёв». Максимально кратко и емко можно описать его суть словами из пресс-релиза Яндекса:


Если вы мало что поняли, читайте дальше нашу статью, мы объясним подробнее.

Ссылка на пресс-релиз и все другие официальные источники приведена ниже.

Запуск алгоритма состоялся в Московском планетарии и сопровождался докладами разработчиков алгоритма, торжественным нажатием кнопки запуска и даже звонком на МКС и прямым эфиром с космонавтами.

Полное видео презентации можно посмотреть прямо здесь, а ниже мы рассмотрим основные изменения и ответы на частые вопросы. Информацию мы будем сопровождать комментариями сотрудников Яндекса в блоге компании, а также цитатами из официальных источников.

Что изменилось в поиске Яндекса?

«Королев» – это продолжение алгоритма «Палех», представленного в ноябре 2016 года. «Палех» был первым шагом в сторону семантического поиска, задача которого – лучше понимать смысл страниц.

«Королев» же теперь умеет понимать смысл всей страницы, а не только заголовка title, как было после анонса «Палеха».


Алгоритм должен улучшить выдачу по редким и сложным запросам.

Документы могут не содержать многих слов запроса, поэтому традиционные алгоритмы определения текстовой релевантности не справятся с этой задачей.

Выглядит это примерно так:

В Google работает аналогичный алгоритм – RankBrain:

Область действия алгоритма «Королев» распространяется на все запросы, в том числе на коммерческие. Однако больше всего влияние заметно именно на многословных запросах. Яндекс подтвердил, что алгоритм работает на всем поиске.

Конечно, целью алгоритма было улучшение качества выдачи по редким и сложным вопросам. Проверим на редких и сложных коммерческих запросах, связанных как раз с названием предмета.Например, в этом случае Яндекс действительно понимает, о чем идет речь. Правда, в выдаче в основном обзоры и статьи, а не коммерческие сайты.

 

А в этом случае поисковик понял, что меня, скорее всего, интересует дрон или квадрокоптер. Конечно же, выдача начинается с Яндекс.Маркет:


Но в некоторых случаях Яндекс бессилен…


Как это работает (+ 11 фото из презентации)

Разберем подробнее презентацию нового алгоритма. Ниже будут только выдержки самых интересных моментов с нашими комментариями и слайды из презентации.

Новая версия поиска основана на нейронной сети. Она состоит из большого количества нейронов. У нейрона есть один выход и несколько входов, он умеет суммировать полученную информацию и после преобразования передавать ее дальше.


Нейронная сеть может выполнять гораздо более сложные задачи и ее можно обучить понимать смысл текста. Для этого нужно дать ей много обучающих примеров.

Работу в этом направлении Яндекс начал с модели DSSM, состоящей из двух частей, соответствующих запросу и странице. На выходе была оценка, насколько они близки по смыслу.


Для обучения нейросети нужно много обучающих примеров.


  • Отрицательные – это пара текстов, не связанных по смыслу.

  • Положительные – пары «текст-запрос», связанные по смыслу.

Согласно презентации, Яндекс использовал для обучения массив данных о поведении пользователей на выдаче и считал связанными по смыслу запрос и страницу, на которую часто кликают пользователи в выдаче. Но как позже пояснил Михаил Сливинский, удовлетворенность пользователя результатами поиска меряются не только кликами:


Как ранее рассказывал в презентации "Палеха" Александр Садовский, наличие клика не говорит о том, что документ релевантен, а отсутствие, что не релевантен. Модель Яндекса предсказывает, задержится ли пользователь на сайте и учитывает множество других метрик удовлетворенности пользователя.

После обучения модель представляет текст в виде набора 300 чисел – семантического вектора. Чем ближе тексты по смыслу, тем больше сходство чисел векторов.


В поиске Яндекса нейронные модели использовались давно, но в алгоритме «Королёв» увеличено влияние нейронных сетей на ранжирование.

Теперь при оценке смысловой близости алгоритм смотрит не только на заголовок, но и на текст страницы.

Параллельно Яндекс работал над алгоритмом сравнения смыслов запросов на основании нейронных сетей. Например, если для одного запроса поисковая система точно знает лучший ответ, а пользователь ввел запрос, очень близкий к нему, тогда результаты поиска должны быть похожи. В качестве иллюстрации такого подхода Яндекс приводит пример: «ленивая кошка из монголии» – «манул». (Источник цитаты ниже)


В «Палехе» нейронные модели применялись только на самых поздних стадиях ранжирования, приблизительно на 150 лучших документов. Поэтому на ранних стадиях ранжирования часть документов терялась, а они могли быть хорошими. Это особенно важно для сложных и низкочастотных запросов.

Теперь вместо вычисления семантического вектора во время исполнения запроса Яндекс делает вычисления заранее – при индексации. «Королёв» проводит вычисления на 200 тыс. документов на запрос, вместо 150, которые были раньше при «Палехе». Сначала такой метод предварительного расчета был испытан на «Палехе», это позволило сэкономить на мощности и находить соответствие запросу не только заголовка, но и текста.


Поисковик берет полный текст на этапе индексации, проводит нужные операции и получает значение. В итоге для всех слов и популярных пар слов формируется дополнительный индекс со списком страниц и их предварительной релевантностью запросу.

Команда Яндекса, которая занималась проектированием и внедрением нового поиска, запускает его.


Запуск алгоритма:


Обучение искусственного интеллекта

В Яндексе уже много лет задачей сбора данных для машинного обучения занимаются асессоры, которые оценивают релевантность документов запросу. С 2009 по 2013 год поисковик получил более 30 млн таких оценок.


За это время появился поиск по картинкам, по видео, внутренние классификаторы и алгоритмы: количество проектов Яндекса выросло.


Так как все они работали на технологиях машинного обучения, требовалось больше оценок и больше асессоров. Когда асессоров стало больше 1500, Яндекс запустил краудсорсинговую платформу «Толока», где может зарегистрироваться и выполнять задания любой человек.

Например, вот такие задания встречаются в «Толоке»:


Или такие:


Если хотите подробнее узнать, как пользователи оценивают релевантность ответов, чтобы понимать, какие параметры выдачи оцениваются, рекомендуем почитать инструкции по заданиям или даже попробовать пройти обучение.

За несколько лет в сервисе собралось более 1 млн человек, которые сделали более 2 млрд оценок. Это позволило Яндексу сделать огромный рывок в масштабировании и объеме обучающих данных. Только в 2017 году задания выполняли более 500 000 человек.


Среди заданий есть:

  • Оценка релевантности документов;


  • Задания для развития карт. Так проверяют актуальность данных об организациях для базы Справочника;
  • Задания для настройки речевых технологий голосового поиска.

Правила, которым Яндекс хочет научить алгоритм, открыты всем зарегистрированным пользователям в виде инструкций для работников «Толоки». По некоторым заданиям просто собирается субъективное мнение людей.

Вот выдержка из инструкции о том, как Яндекс определяет релевантность документа:


Яндексу очень важно качество оценок. Оно может быть субъективно, поэтому задания даются сразу нескольким людям, а потом математическая модель оценивает распределение голосов с учетом степени доверия к каждому работнику и экспертизы каждого участника. Для каждого «толокера» хранятся данные о точности оценок по каждому проекту и сводятся в единый рейтинг.

Именно поэтому нельзя сетовать на то, что необъективность асессоров погубила ваш сайт.

Таким образом, в Яндексе появилась дополнительная группа факторов:

  • Смысл страницы и соответствие ее запросу;
  • Является ли документ хорошим ответом на похожие пользовательские запросы.

Что изменилось в топе Яндекса?

Алгоритм предположительно был запущен несколько раньше презентации и, если верить сторонним сервисам (например, https://tools.pixelplus.ru/updates/yandex), изменения в выдаче начались еще в начале августа, но неизвестно, связано ли это с алгоритмом «Королев».




По этим данным можно выдвинуть гипотезу, что уменьшение доли главных страниц в топ-100 и уменьшение возраста документов в пределах топ-100 связано с новым алгоритмом, который помогает получить больше релевантных ответов.

Правда, при этом заметных изменений в топ-10, топ-20 или топ-50 не видно. Возможно, их там нет либо они незначительны. Мы также не заметили существенных изменений выдачи по продвигаемым запросам.

Текстовая релевантность в стандартном понимании никуда не делась. Подборки и более широкие ответы по многословным запросам содержат большое количество страниц с вхождениями слов запроса в title и текст:


Свежесть результатов поиска тоже имеет значение. Пример из презентации Яндекса содержит ряд свежих результатов с искомой фразой целиком.


Хотя, учитывая тот факт, что алгоритм проводит расчеты сразу при индексации, «Королев» теоретически может влиять и на подмешивание результатов быстроботом.

Надо ли как-то оптимизировать тексты под «Королев»?

Скорее наоборот: чем больше поисковик учится определять смысл текста, тем меньше требуется вхождений ключевых слов и тем больше требуется смысла. Но принципы оптимизации не меняются.


Например, еще в 2015 году Google рассказал об алгоритме RankBrain, который помогает поиску лучше отвечать на многословные запросы, заданные на естественном языке. Он неплохо работает, что отметили пользователи в многочисленных публикациях сравнения поиска Яндекса и Google после анонса новой версии алгоритма.


Это не сопровождалось масштабной презентацией и сильно не повлияло на работу специалистов. Никто целенаправленно не занимается «оптимизацией под RankBrain», поэтому и в Яндексе это никак глобально не меняет работу специалиста. Да, появился тренд на поиск и включение в текст так называемых LSI-ключей, но это явно не просто часто повторяющиеся слова на страницах конкурентов. Ожидаем развития SEO-сервисов в этом направлении.

В алгоритме также заявлено, что анализируется смысл и других запросов, по которым пользователи попадают на страницу. Опять же, в перспективе это должно дать одинаковую или похожую выдачу по синонимичным запросам, так как сейчас результат анализа выдачи порой показывает, что пересечений по синонимичным запросам в выдаче нет. Будем надеяться, что алгоритм поможет устранить подобные несоответствия.

Но Яндекс пока не может найти (или плохо находит) документы, близкие по смыслу к запросу, но вовсе не содержащие слов запроса ( источник).


Советы:

  1. Убедитесь, что страница отвечает на запросы, под которые она оптимизирована и по которым переходят пользователи.

  2. Убедитесь, что страница все же включает слова из поисковых запросов. Мы не говорим про прямые вхождения, просто проверьте, есть ли слова из запросов в любой форме на странице.

  3. Тематические слова могут придать странице дополнительную релевантность, но это явно не просто часто повторяющиеся слова на страницах конкурентов. Ожидаем развития SEO-сервисов в этом направлении.

  4. Для ключевых фраз, по которым страница сайта хорошо ищется, проверьте, не выбивается ли показатель отказов из среднего показателя по сайту. Если по запросу сайт находится на высокой позиции и пользователь находит то, что ему нужно, сайт может быть показан по сходным по смыслу ключевым фразам (если такие есть).

  5. Клики на поиске показывают удовлетворенность пользователя результатом. Это не ново, но стоит еще раз проверить сниппеты по ключевым запросам. Возможно, где-то получится повысить кликабельность.

Как проверить влияние алгоритма на свой сайт?

Для сайтов, у которых нет ярко выраженной сезонности, вы можете сравнить количество низкочастотных ключевых фраз, по которым переходили на сайт до запуска алгоритма и после. Например, взять неделю в июле и неделю в августе.


Выбираем «Отчеты – Стандартные отчеты – Источники – Поисковые запросы».

Выбираем визиты из Яндекса:


И фильтром оставляем только те запросы, по которым был 1 переход. Дополнительно стоит исключить фразы, содержащие название бренда.


Далее можно сравнить количество визитов до запуска алгоритма и после.


Также можете посмотреть наличие поисковых фраз, слов из которых у вас нет в тексте. В целом, такие фразы присутствовали среди НЧ-запросов и раньше, просто сейчас их может стать заметно больше.

Перспективы и прогноз

  • Поисковик сможет еще лучше находить документы, близкие по смыслу к запросу. Наличие вхождений станет еще менее важным.

  • Алгоритм будет обучаться дальше и улучшаться.

  • К текущему алгоритму будет добавлена персонализация.

  • В перспективе хорошие материалы, отвечающие на вопрос пользователя, могут получить еще больше трафика по микрочастотным, редким или семантически похожим запросам.

  • По низкочастотным ключевым фразам может увеличиться конкуренция за счет большей релевантности неоптимизированных документов.

  • Гипотеза. С помощью подобных алгоритмов Яндекс может лучше оценивать, насколько семантически связаны страницы, ссылающиеся на другие, и учитывать это для оценки внешних ссылок. Если это может быть значимым фактором с учетом слабого влияния ссылок в Яндексе.

  • Нам стоит ожидать дальнейших изменений, связанных с нейросетями, и в других сервисах Яндекса.

Вопрос-ответ

Вопрос: так как Яндекс оценивает клики, значит ли это, что накрутка поведенческих факторов будет набирать обороты?


Вопрос: связан ли «Королев» с «Баден-Баденом»?


Вопрос: как включить новый поиск Яндекса?

Ответ: в блоге Яндекса и в поисковых запросах часто встречались вопросы, как включить или установить новый поиск. Никак. Новый алгоритм уже работает и никаких дополнительных настроек делать не нужно.

Делимся десятилетним опытом продвижения и web-исследованиями по отраслям в рассылке

Всего 2 раза в месяц

Нажимая на кнопку Подписаться, я даю согласие на обработку персональных данных

Наш и клиентский опыт в digital за 10 лет по отраслям

Подробности в первом письме

Нажимая на кнопку Получить, я даю согласие на обработку персональных данных

Еще статьи по теме
Управление репутацией Персоны в интернете: основные принципы и инструменты SERM

1 Сентября 2017

Управление репутацией Персоны в интернете: основные принципы и инструменты SERM

Репутационный менеджмент: ваша онлайн-репутация уже работает на вас. Или все же против вас?

Читать далее...
Продвижение сайта vitoslavica.ru (строительство деревянных домов)

28 Августа 2017

Продвижение сайта vitoslavica.ru (строительство деревянных домов)

Снятие фильтра Пингвин и увеличение поискового трафика в 2 раза

Читать далее...
Контекстная реклама банковских услуг

25 Августа 2017

Контекстная реклама банковских услуг

Всего несколько недель работы - плюс 580% количество заявок

Читать далее...
Продвижение сайта фирмы, оказывающей юридические услуги

23 Августа 2017

Продвижение сайта фирмы, оказывающей юридические услуги

Благодаря проведенным работам молодому сайту удалось за полгода опередить ресурсы, продвижение которых велось другими SEO-агентствами годами (в отдельных случаях от 10 лет).

Читать далее...

ОСТАВЬТЕ ЗАЯВКУ И МЫ ОБЯЗАТЕЛЬНО СВЯЖЕМСЯ С ВАМИ

Нажимая на кнопку Отправить, я даю согласие на обработку персональных данных

ОСТАВЬТЕ ЗАЯВКУ И МЫ ОБЯЗАТЕЛЬНО СВЯЖЕМСЯ С ВАМИ

Нажимая на кнопку Отправить, я даю согласие на обработку персональных данных