Палех – новый алгоритм Яндекса. Что такое «длинный хвост»

Яндекс запустил новый алгоритм ранжирования - «Королев». Теперь поисковая система сопоставляет смыслы поискового запроса и страницы. Это очень удобно для пользователей. Однако что новый алгоритм означает для оптимизаторов и владельцев сайтов, как изменится продвижение и стоит ли ждать изменения трафика.

Как никогда весь «сеошный» мир ждал запуска нового алгоритма ранжирования, анонсированного на 22 августа 2017 года. Ещё бы, подобные анонсы – вещь для Яндекса абсолютно нетипичная, обычно они предпочитают не распространяться о своих планах, и сообщают об очередном релизе алгоритма ранжирования постфактум.

22 августа 2017 года Яндекс запустил новую версию поиска. В её основе лежит поисковый алгоритм «Королёв» (с 2008-го года новые алгоритмы ранжирования в Яндексе называют в честь городов). Алгоритм с помощью нейронной сети сопоставляет смысл запросов и веб-страниц - это позволяет Яндексу точнее отвечать на сложные запросы. Для обучения новой версии поиска используются поисковая статистика и оценки миллионов людей. Таким образом, вклад в развитие поиска вносят не только разработчики, но и все пользователи Яндекса.

Область применения нового алгоритма практически не затрагивает традиционные сеошные сферы интересов, в первую очередь к которым можно отнести коммерческую выдачу. «Королёв» оказался логическим продолжением алгоритма «Палех» и призван обслуживать длинный хвост микрочастотных запросов, как правило, задаваемых на естественном языке. Особенностью таких запросов является то, что релевантные им документы могут не содержать многих из слов, входящих в запрос. Это ставит в тупик традиционные алгоритмы ранжирования, основанные на текстовой релевантности.

Решение найдено в виде использования нейросетей, которые обучаются в том числе и на поведении пользователей. Поэтому новый алгоритм Яндекса работает на основе нейронной сети. Он обучается на примерах запросов пользователей, и подбирает ответы исходя из смысла текста на странице. Это означает, в частности, что он будет гораздо эффективнее работать с нестандартными запросами, когда пользователи сами не уверены, как называется то, что они хотят найти. Здесь многое упирается в вычислительные мощности.

Вообще подобный подход к решению задачи ранжирования длинного микрочастотного хвоста запросов не нов. Еще в 2015-м году стало известно о технологии, применяемой поисковой системой Google для поиска ответов на многословные запросы, заданные на естественном языке – RankBrain. Эта технология, так же основанная на машинном обучении, позволяет распознавать наиболее значимые слова в запросах, и анализировать контекст, в котором осуществляется поиск. Что позволяет находить релевантные документы, которые не содержат всех слов запроса.

Кроме того, алгоритм работает и с картинками. Он анализирует содержание изображения и подбирает необходимый вариант, исходя из него, а не только из описания в тегах или окружающего его текста.

Впрочем, длинный хвост микрочастотных многословных запросов на естественном языке вполне может быть интересен «выжигателям» информационной семантики – создателям так называемых инфосайтов «на все случаи жизни». В общем-то, они и так стараются под как можно большее количество известных им запросов, которые удается заполучить с помощью различных методов сбора семантики, организовать точное вхождение в свои тексты. Там же, где точных вхождений не будет, т.е. для запросов, которые не всосал «семантический пылесос» создателей инфосайтов или для которых им не удалось обеспечить точных вхождений в контент, и начинается вотчина «Королёва», который призван искать соответствия между запросами и ответами в том случае, когда между ними мало пересечений по ключевым словам. В таких случаях «Королёв» несомненно повысит требования к качеству контента, и реально интересные читабельные статьи будут еще больше выигрывать у сборников вхождений ключевых фраз, разбавленных водой, т.к. именно в таких статьях могут содержаться полезные для нового алгоритма сигналы. Ну, а всем остальным сеошникам действительно можно расслабиться – очередная порка откладывается. Жертв и разрушений нет.

Запуская «Палех», Яндекс научил нейронную сеть преобразовывать поисковые запросы и заголовки веб-страниц в группы чисел - семантические векторы.

Важное свойство таких векторов состоит в том, что их можно сравнивать друг с другом: чем сильнее будет сходство, тем ближе друг к другу по смыслу запрос и заголовок.

Чем он отличается от «Палеха»?

Основным отличием нового алгоритма, помимо улучшения технической реализации, является возможность распознавать схожие «смыслы» по всему документу, а не только по заголовку (Title), который появляется в окне браузера.

Как работает алгоритм «Королёв»

Поисковый алгоритм «Королёв» сравнивает семантические векторы поисковых запросов и веб-страниц целиком - а не только их заголовки. Это позволяет выйти на новый уровень понимания смысла.

Как и в случае с «Палехом», тексты веб-страниц в семантические векторы преобразует нейросеть. Эта операция требует много вычислительных ресурсов. Поэтому «Королёв» высчитывает векторы страниц не в режиме реального времени, а заранее, на этапе индексирования.

Когда человек задаёт запрос, алгоритм сравнивает вектор запроса с уже известными ему векторами страниц.

Эффект «Королёва»

Умение понимать смысл особенно полезно при обработке редких и необычных запросов - когда люди пытаются описать своими словами свойства того или иного объекта и ожидают, что поиск подскажет его название.

Такая схема позволяет начать подбор веб-страниц, соответствующих запросу по смыслу, на ранних стадиях ранжирования. В «Палехе» смысловой анализ - один из завершающих этапов: через него проходят всего 150 документов. В «Королёве» он производится для 200 000 документов.

Кроме того, новый алгоритм не только сравнивает текст веб-страницы с поисковым запросом, но и обращает внимание на другие запросы, по которым люди приходят на эту страницу.

Так можно установить дополнительные смысловые связи.

Люди учат машины

Использование машинного обучения, а особенно нейросетей, рано или поздно позволит научить поиск оперировать смыслами на уровне человека. Чтобы машина поняла, как решать ту или иную задачу, необходимо показать ей огромное количество примеров: положительных и отрицательных. Такие примеры дают пользователи Яндекса.

Нейронная сеть, которую использует алгоритм «Королёв», обучается на обезличенной поисковой статистике. Системы сбора статистики учитывают, на какие страницы пользователи переходят по тем или иным запросам и сколько времени они там проводят.

Если человек открыл веб-страницу и «завис» там надолго, вероятно, он нашёл то, что искал, - то есть страница хорошо отвечает на его запрос. Это положительный пример.

Подобрать отрицательные примеры гораздо легче: достаточно взять запрос и любую случайную веб-страницу.Статистика, которая используется для обучения алгоритма, обезличена

В помощи людей нуждается и Матрикснет, который строит формулу ранжирования.

Толока

Чтобы поиск развивался, люди должны постоянно давать оценку его работе. Когда-то выставлением оценок занимались только сотрудники Яндекса - так называемые асессоры. Но чем больше оценок, тем лучше - поэтому Яндекс привлек к этому всех желающих и запустили сервис Яндекс.Толока . Сейчас там зарегистрировано более миллиона пользователей: они анализируют качество поиска и участвуют в улучшении других сервисов Яндекса. Задания на Толоке оплачиваются - сумма, которую можно заработать, указана рядом с заданием. За два с лишним года существования сервиса толокеры дали около двух миллиардов оценок.

В основе современного поиска лежат сложные алгоритмы. Алгоритмы придумывают разработчики, а учат - миллионы пользователей Яндекса. Любой запрос - это анонимный сигнал, который помогает машине всё лучше понимать людей. Новый поиск - это поиск, который мы делаем вместе.

Лето 2017 года, 22 августа – выход нового поискового алгоритма от Яндекса. Анонс на официальном блоге: https://yandex.ru/blog/company/korolev

Чем будут озадачены сеошники в связи с его появлением? До этого интеллектуальный поиск представлял «Палех», в анонсе в 2016 году обязательно почитайте о нейронных сетях и изменениях в работе сео специалистов над

Цитирую новость:

«Яндекс запустил новую версию поиска, основанную на алгоритме «Королёв» - он использует нейронную сеть, которая способна сопоставлять смысл запросов и веб-страниц. Это позволяет поиску с высокой точностью отвечать на редкие и сложные вопросы. Для обучения искусственного интеллекта Яндекс задействует не только поисковую статистику, но и распределенную сеть ассесоров и толокеров, а также оценки миллионов пользователей.»

Важная особенность «Королёва» в том, что помимо сопоставления смысла запроса и страницы, он учитывает ещё и смысл других запросов, которым страница релевантна.

Сравнение алгоритмов 2016 и 2017 года

«Палех» в реальном времени сопоставлял смысл запроса и заголовка веб-страницы. «Королёв» же использует нейронную сеть, которая анализирует уже всю страницу.»

В марте 2017 года Яндекс ввел новый алгоритм ранжирования Баден-Баден для борьбы с перенасыщенностью ключевыми словами. Тогда и заговорили о важности LSI-копирайтинга.

Что такое LSI-тексты и как их писать

ЛСИ копирайтинг (lsi - latent semantic indexing или латентно-семантический индекс) – это не привычные seo тексты, насыщенные ключевыми фразами, а полное раскрытие смысла ключевых запросов в интересной для читателя форме.

В данной методике написания главную роль играют фразы по теме статьи. Редкие речевые обороты, понятные только узким специалистам той или иной области употреблять не следует. Исключение составляют технические статьи.

Важно, чтобы пользователь получил исчерпывающий ответ на свой вопрос (поисковый запрос).

Теперь о конкретных действиях при наполнении и продвижении сайтов. На что нужно обратить внимание в первую очередь.

Использовать синонимы теперь стало еще важнее, чем раньше.
Так же важно употреблять в текстах кроме ключевых слов и тематические.
Не забывать добавлять подсказки (фразы, которые вы видите при наборе запроса в поисковой строке), фразы из нижней части страницы выдачи (вместе с этим ищут …) подсветки.
Так же из статистики Яндекс.Вордстат: «Что искали со словом…»

Подсказки:

Фразы из нижней части страницы выдачи:

Подсветки:

Яндекс и гугл по-разному формируют сниппет. Google берет из тайтла и дексрипшена, а яндекс может выбрать кусок релевантного запросу текста. Поэтому, чем интересней и привлекательней будет этот кусок, тем будет больше переходов на сайт из выдачи благодаря сниппету.

Отличия LSI и SEO оптимизации

В SEO ключевые слова и фразы вставляются в заголовки, контент и мета теги.

В LSI ключи могут быть или не быть. Цель – это дать исчерпывающий ответ на предполагаемый вопросы посетителя. Если ключ лишний для конкретной статьи, то его лучше не использовать.
В SEO мы стремимся к определенному проценту плотности ключевых слов.

В LSI употребляется максимум дополнительных тематических и релевантных слов и словосочетаний.

В SEO мы стремимся к достижению уникальности по техническим параметрам.

В LSI важна смысловая уникальность и исчерпанность контента.

Заключение

ЛСИ тексты могут быть в топе по запросам, которых нет в чистом виде на самой странице.

С LSI-индексированием нужно забыть о нетематических врезках.

Сегодня мы анонсировали новый поисковый алгоритм «Палех». Он включает в себя все те улучшения, над которыми мы работали последнее время.

Например, поиск теперь впервые использует нейронные сети для того, чтобы находить документы не по словам, которые используются в запросе и в самом документе, а по смыслу запроса и заголовка.

Уже много десятилетий исследователи бьются над проблемой семантического поиска, в котором документы ранжируются, исходя из смыслового соответствия запросу. И теперь это становится реальностью.

В этом посте я постараюсь немного рассказать о том, как у нас это получилось и почему это не просто ещё один алгоритм машинного обучения, а важный шаг в будущее.

Искусственный интеллект или машинное обучение?

Почти все знают, что современные поисковые системы работают с помощью машинного обучения. Почему об использовании нейронных сетей для его задач надо говорить отдельно? И почему только сейчас, ведь хайп вокруг этой темы не стихает уже несколько лет? Попробую рассказать об истории вопроса.

Поиск в интернете - сложная система, которая появилась очень давно. Сначала это был просто поиск страничек, потом он превратился в решателя задач, и сейчас становится полноценным помощником. Чем больше интернет, и чем больше в нём людей, тем выше их требования, тем сложнее приходится становиться поиску.

Эпоха наивного поиска

Сначала был просто поиск слов - инвертированный индекс. Потом страниц стало слишком много, их стало нужно ранжировать. Начали учитываться разные усложнения - частота слов, tf-idf .

Эпоха ссылок

Потом страниц стало слишком много на любую тему, произошёл важный прорыв - начали учитывать ссылки, появился PageRank .

Эпоха машинного обучения

Интернет стал коммерчески важным, и появилось много жуликов, пытающихся обмануть простые алгоритмы, существовавшие в то время. Произошёл второй важный прорыв - поисковики начали использовать свои знания о поведении пользователей, чтобы понимать, какие страницы хорошие, а какие - нет.

Где-то на этом этапе человеческого разума перестало хватать на то, чтобы придумывать, как ранжировать документы. Произошёл следующий переход - поисковики стали активно использовать машинное обучение.

Один из лучших алгоритмов машинного обучения изобрели в Яндексе - Матрикснет. Можно сказать, что ранжированию помогает коллективный разум пользователей и «мудрость толпы ». Информация о сайтах и поведении людей преобразуется во множество факторов, каждый из которых используется Матрикснетом для построения формулы ранжирования. Фактически, формулу ранжирования пишет машина (получалось около 300 мегабайт).

Но у «классического» машинного обучения есть предел: оно работает только там, где очень много данных. Небольшой пример. Миллионы пользователей вводят запрос [вконтакте], чтобы найти один и тот же сайт. В данном случае их поведение является настолько сильным сигналом, что поиск не заставляет людей смотреть на выдачу, а подсказывает адрес сразу при вводе запроса.

Но люди сложнее, и хотят от поиска всё больше. Сейчас уже до 40% всех запросов уникальны, то есть не повторяются хотя бы дважды в течение всего периода наблюдений. Это значит, что у поиска нет данных о поведении пользователей в достаточном количестве, и Матрикснет лишается ценных факторов. Такие запросы в Яндексе называют «длинным хвостом », поскольку все вместе они составляют существенную долю обращений к нашему поиску.

Эпоха искусственного интеллекта

И тут время рассказать о последнем прорыве: несколько лет назад компьютеры становятся достаточно быстрыми, а данных становится достаточно много, чтобы использовать нейронные сети. Основанные на них технологии ещё называют машинным интеллектом или искусственным интеллектом - потому что нейронные сети построены по образу нейронов в нашем мозге и пытаются эмулировать работу некоторых его частей.

Машинный интеллект гораздо лучше старых методов справляется с задачами, которые могут делать люди: например, распознаванием речи или образов на изображениях. Но как это поможет поиску?

Как правило, низкочастотные и уникальные запросы довольно сложны для поиска – найти хороший ответ по ним заметно труднее. Как это сделать? У нас нет подсказок от пользователей (какой документ лучше, а какой - хуже), поэтому для решения поисковой задачи нужно научиться лучше понимать смысловое соответствие между двумя текстами: запросом и документом.

Легко сказать

Строго говоря, искусственные нейросети – это один из методов машинного обучения. Совсем недавно им была посвящена . Нейронные сети показывают впечатляющие результаты в области анализа естественной информации - звука и образов. Это происходит уже несколько лет. Но почему их до сих пор не так активно применяли в поиске?

Простой ответ - потому что говорить о смысле намного сложнее, чем об образе на картинке, или о том, как превратить звуки в расшифрованные слова. Тем не менее, в поиске смыслов искусственный интеллект действительно стал приходить из той области, где он уже давно король, - поиска по картинкам.

Несколько слов о том, как это работает в поиске по картинкам. Вы берёте изображение и с помощью нейронных сетей преобразуете его в вектор в N-мерном пространстве. Берете запрос (который может быть как в текстовом виде, так и в виде другой картинки) и делаете с ним то же самое. А потом сравниваете эти вектора. Чем ближе они друг к другу, тем больше картинка соответствует запросу.

Ок, если это работает в картинках, почему бы не применить эту же логику в web-поиске?

Дьявол в технологиях

Сформулируем задачу следующим образом. У нас на входе есть запрос пользователя и заголовок страницы. Нужно понять, насколько они соответствует друг другу по смыслу. Для этого необходимо представить текст запроса и текст заголовка в виде таких векторов, скалярное умножение которых было бы тем больше, чем релевантнее запросу документ с данным заголовком. Иначе говоря, мы хотим обучить нейронную сеть таким образом, чтобы для близких по смыслу текстов она генерировала похожие векторы, а для семантически несвязанных запросов и заголовков вектора должны различаться.

Сложность этой задачи заключается в подборе правильной архитектуры и метода обучения нейронной сети. Из научных публикаций известно довольно много подходов к решению проблемы. Вероятно, самым простым методом здесь является представление текстов в виде векторов с помощью алгоритма word2vec (к сожалению, практический опыт говорит о том, что для рассматриваемой задачи это довольно неудачное решение).

DSSM

В 2013 году исследователи из Microsoft Research описали свой подход, который получил название Deep Structured Semantic Model .

На вход модели подаются тексты запросов и заголовков. Для уменьшения размеров модели, над ними производится операция, которую авторы называют word hashing. К тексту добавляются маркеры начала и конца, после чего он разбивается на буквенные триграммы. Например, для запроса [палех] мы получим триграммы [па, але, лех, ех]. Поскольку количество разных триграмм ограничено, то мы можем представить текст запроса в виде вектора размером в несколько десятков тысяч элементов (размер нашего алфавита в 3 степени). Соответствующие триграммам запроса элементы вектора будут равны 1, остальные - 0. По сути, мы отмечаем таким образом вхождение триграмм из текста в словарь, состоящий из всех известных триграмм. Если сравнить такие вектора, то можно узнать только о наличии одинаковых триграмм в запросе и заголовке, что не представляет особого интереса. Поэтому теперь их надо преобразовать в другие вектора, которые уже будут иметь нужные нам свойства семантической близости.

После входного слоя, как и полагается в глубоких архитектурах, расположено несколько скрытых слоёв как для запроса, так и для заголовка. Последний слой размером в 128 элементов и служит вектором, который используется для сравнения. Выходом модели является результат скалярного умножения последних векторов заголовка и запроса (если быть совсем точным, то вычисляется косинус угла между векторами). Модель обучается таким образом, чтобы для положительны обучающих примеров выходное значение было большим, а для отрицательных - маленьким. Иначе говоря, сравнивая векторы последнего слоя, мы можем вычислить ошибку предсказания и модифицировать модель таким образом, чтобы ошибка уменьшилась.

Мы в Яндексе также активно исследуем модели на основе искусственных нейронных сетей, поэтому заинтересовались моделью DSSM. Дальше мы расскажем о своих экспериментах в этой области.

Теория и практика

Характерное свойство алгоритмов, описываемых в научной литературе, состоит в том, что они не всегда работают «из коробки». Дело в том, что «академический» исследователь и исследователь из индустрии находятся в существенно разных условиях. В качестве отправной точки (baseline), с которой автор научной публикации сравнивает своё решение, должен выступать какой-то общеизвестный алгоритм - так обеспечивается воспроизводимость результатов. Исследователи берут результаты ранее опубликованного подхода, и показывают, как их можно превзойти. Например, авторы оригинального DSSM сравнивают свою модель по метрике NDCG с алгоритмами BM25 и LSA . В случае же с прикладным исследователем, который занимается качеством поиска в реальной поисковой машине, отправной точкой служит не один конкретный алгоритм, а всё ранжирование в целом. Цель разработчика Яндекса состоит не в том, чтобы обогнать BM25, а в том, чтобы добиться улучшения на фоне всего множества ранее внедренных факторов и моделей. Таким образом, baseline для исследователя в Яндексе чрезвычайно высок, и многие алгоритмы, обладающие научной новизной и показывающие хорошие результаты при «академическом» подходе, оказываются бесполезны на практике, поскольку не позволяют реально улучшить качество поиска.

В случае с DSSM мы столкнулись с этой же проблемой. Как это часто бывает, в «боевых» условиях точная реализация модели из статьи показала довольно скромные результаты. Потребовался ряд существенных «доработок напильником», прежде чем мы смогли получить результаты, интересные с практической точки зрения. Здесь мы расскажем об основных модификациях оригинальной модели, которые позволили нам сделать её более мощной.

Большой входной слой

В оригинальной модели DSSM входной слой представляет собой множество буквенных триграмм. Его размер равен 30 000. У подхода на основе триграмм есть несколько преимуществ. Во-первых, их относительно мало, поэтому работа с ними не требует больших ресурсов. Во-вторых, их применение упрощает выявление опечаток и ошибок в словах. Однако, наши эксперименты показали, что представление текстов в виде «мешка» триграмм заметно снижает выразительную силу сети. Поэтому мы радикально увеличили размер входного слоя, включив в него, помимо буквенных триграмм, ещё около 2 миллионов слов и словосочетаний. Таким образом, мы представляем тексты запроса и заголовка в виде совместного «мешка» слов, словесных биграмм и буквенных триграмм.

Использование большого входного слоя приводит к увеличению размеров модели, длительности обучения и требует существенно больших вычислительных ресурсов.

Тяжело в обучении: как нейронная сеть боролась сама с собой и научилась на своих ошибках

Обучение исходного DSSM состоит в демонстрации сети большого количества положительных и отрицательных примеров. Эти примеры берутся из поисковой выдачи (судя по всему, для этого использовался поисковик Bing). Положительными примерами служат заголовки кликнутых документов выдачи, отрицательными - заголовки документов, по которым не было клика. У этого подхода есть определённые недостатки. Дело в том, что отсутствие клика далеко не всегда свидетельствует о том, что документ нерелевантен. Справедливо и обратное утверждение - наличие клика не гарантирует релевантности документа. По сути, обучаясь описанным в исходной статье образом, мы стремимся предсказывать аттрактивность заголовков при условии того, что они будут присутствовать в выдаче. Это, конечно, тоже неплохо, но имеет достаточно косвенное отношение к нашей главной цели - научиться понимать семантическую близость.

Во время своих экспериментов мы обнаружили, что результат можно заметно улучшить, если использовать другую стратегию выбора отрицательных примеров. Для достижения нашей цели хорошими отрицательными примерами являются такие документы, которые гарантированно нерелевантны запросу, но при этом помогают нейронной сети лучше понимать смыслы слов. Откуда их взять?

Первая попытка

Сначала в качестве отрицательного примера просто возьмём заголовок случайного документа. Например, для запроса [палехская роспись] случайным заголовком может быть «Правила дорожного движения 2016 РФ». Разумеется, полностью исключить то, что случайно выбранный из миллиардов документ будет релевантен запросу, нельзя, но вероятность этого настолько мала, что ей можно пренебречь. Таким образом мы можем очень легко получать большое количество отрицательных примеров. Казалось бы, теперь мы можем научить нашу сеть именно тому, чему хочется - отличать хорошие документы, которые интересуют пользователей, от документов, не имеющих к запросу никакого отношения. К сожалению, обученная на таких примерах модель оказалась довольно слабой. Нейронная сеть – штука умная, и всегда найдет способ упростить себе работу. В данном случае, она просто начала выискивать одинаковые слова в запросах и заголовках: есть - хорошая пара, нет - плохая. Но это мы и сами умеем делать. Для нас важно, чтобы сеть научилась различать неочевидные закономерности.

Ещё одна попытка

Следующий эксперимент состоял в том, чтобы добавлять в заголовки отрицательных примеров слова из запроса. Например, для запроса [палехская роспись] случайный заголовок выглядел как [Правила дорожного движения 2016 РФ роспись]. Нейронной сети пришлось чуть сложнее, но, тем не менее, она довольно быстро научилась хорошо отличать естественные пары от составленных вручную. Стало понятно, что такими методами мы успеха не добьемся.

Успех

Многие очевидные решения становятся очевидны только после их обнаружения. Так получилось и на этот раз: спустя некоторое время обнаружилось, что лучший способ генерации отрицательных примеров - это заставить сеть «воевать» против самой себя, учиться на собственных ошибках. Среди сотен случайных заголовков мы выбирали такой, который текущая нейросеть считала наилучшим. Но, так как этот заголовок всё равно случайный, с высокой вероятностью он не соответствует запросу. И именно такие заголовки мы стали использовать в качестве отрицательных примеров. Другими словами, можно показать сети лучшие из случайных заголовков, обучить её, найти новые лучшие случайные заголовки, снова показать сети и так далее. Раз за разом повторяя данную процедуру, мы видели, как заметно улучшается качество модели, и всё чаще лучшие из случайных пар становились похожи на настоящие положительные примеры. Проблема была решена.

Подобная схема обучения в научной литературе обычно называется hard negative mining. Также нельзя не отметить, что схожие по идее решения получили широкое распространение в научном сообществе для генерации реалистично выглядящих изображений, подобный класс моделей получил название Generative Adversarial Networks.

Разные цели

В качестве положительных примеров исследователи из Microsoft Research использовались клики по документам. Однако, как уже было сказано, это достаточно ненадежный сигнал о смысловом соответствии заголовка запросу. В конце концов, наша задача состоит не в том, чтобы поднять в поисковой выдаче самые посещаемые сайты, а в том, чтобы найти действительно полезную информацию. Поэтому мы пробовали в качестве цели обучения использовать другие характеристики поведения пользователя. Например, одна из моделей предсказывала, останется ли пользователь на сайте или уйдет. Другая – насколько долго он задержится на сайте. Как оказалось, можно заметно улучшить результаты, если оптимизировать такую целевую метрику, которая свидетельствует о том, что пользователь нашёл то, что ему было нужно.

Профит

Ок, что это нам дает на практике? Давайте сравним поведение нашей нейронной модели и простого текстового фактора, основанного на соответствии слов запроса и текста - BM25. Он пришёл к нам из тех времён, когда ранжирование было простым, и сейчас его удобно использовать за базовый уровень.

В качестве примера возьмем запрос [келлская книга] и посмотрим, какое значение принимают факторы на разных заголовках. Для контроля добавим в список заголовков явно нерелевантный результат.

Все факторы в Яндексе нормируются в интервал . Вполне ожидаемо, что BM25 имеет высокие значения для заголовков, которые содержат слова запроса. И вполне предсказуемо, что этот фактор получает нулевое значение на заголовках, не имеющих общих слов с запросом. Теперь обратите внимание на то, как ведет себя нейронная модель. Она одинаково хорошо распознаёт связь запроса как с русскоязычным заголовком релевантной страницы из Википедии, так и с заголовком статьи на английском языке! Кроме того, кажется, что модель «увидела» связь запроса с заголовком, в котором не упоминается келлская книга, но есть близкое по смыслу словосочетание («ирландские евангелия»). Значение же модели для нерелевантного заголовка существенно ниже.

Теперь давайте посмотрим, как будут себя вести наши факторы, если мы переформулируем запрос, не меняя его смысла: [евангелие из келлса].

Для BM25 переформулировка запроса превратилась в настоящую катастрофу - фактор стал нулевым на релевантных заголовках. А наша модель демонстрирует отличную устойчивость к переформулировке: релевантные заголовки по-прежнему имеют высокое значение фактора, а нерелевантный заголовок - низкое. Кажется, что именно такое поведение мы и ожидали от штуки, которая претендует на способность «понимать» семантику текста.

Ещё пример. Запрос [рассказ в котором раздавили бабочку].

Как видим, нейронная модель оказалась способна высоко оценить заголовок с правильным ответом, несмотря на полное отсутствие общих слов с запросом. Более того, хорошо видно, что заголовки, не отвечающие на запрос, но всё же связанные с ним по смыслу, получают достаточно высокое значение фактора. Как будто наша модель «прочитала» рассказ Брэдбери и «знает», что это именно о нём идёт речь в запросе!

А что дальше?

Мы находимся в самом начале большого и очень интересного пути. Судя по всему, нейронные сети имеют отличный потенциал для улучшения ранжирования. Уже понятны основные направления, которые нуждаются в активном развитии.

Например, очевидно, что заголовок содержит неполную информацию о документе, и хорошо бы научиться строить модель по полному тексту (как оказалось, это не совсем тривиальная задача). Далее, можно представить себе модели, имеющие существенно более сложную архитектуру, нежели DSSM - есть основания предполагать, что таким образом мы сможем лучше обрабатывать некоторые конструкции естественных языков. Свою долгосрочную цель мы видим в создании моделей, способных «понимать» семантическое соответствие запросов и документов на уровне, сравнимом с уровнем человека. На пути к этой цели будет много сложностей - тем интереснее будет его пройти. Мы обещаем рассказывать о своей работе в этой области. Cледите за следующими публикациями.

22 августа 2017 Яндекс запустил новую версию поискового алгоритма – «Королёв». Максимально кратко и емко можно описать его суть словами из пресс-релиза Яндекса:

Запуск алгоритма состоялся в Московском планетарии и сопровождался докладами разработчиков алгоритма, торжественным нажатием кнопки запуска и даже звонком на МКС и прямым эфиром с космонавтами.

Полное видео презентации можно посмотреть прямо здесь, а ниже мы рассмотрим основные изменения и ответы на частые вопросы. Информацию мы будем сопровождать комментариями сотрудников Яндекса в блоге компании, а также цитатами из официальных источников.

Что изменилось в поиске Яндекса?

«Королев» – это продолжение алгоритма «Палех », представленного в ноябре 2016 года. «Палех» был первым шагом в сторону семантического поиска, задача которого – лучше понимать смысл страниц.

«Королев» же теперь умеет понимать смысл всей страницы, а не только заголовка title, как было после анонса «Палеха».

Алгоритм должен улучшить выдачу по редким и сложным запросам.

Документы могут не содержать многих слов запроса, поэтому традиционные алгоритмы определения текстовой релевантности не справятся с этой задачей.

Выглядит это примерно так:

В Google работает аналогичный алгоритм – RankBrain:

Область действия алгоритма «Королев» распространяется на все запросы, в том числе на коммерческие. Однако больше всего влияние заметно именно на многословных запросах. Яндекс подтвердил, что алгоритм работает на всем поиске.

Конечно, целью алгоритма было улучшение качества выдачи по редким и сложным вопросам. Проверим на редких и сложных коммерческих запросах, связанных как раз с названием предмета.Например, в этом случае Яндекс действительно понимает, о чем идет речь. Правда, в выдаче в основном обзоры и статьи, а не коммерческие сайты.

А в этом случае поисковик понял, что меня, скорее всего, интересует дрон или квадрокоптер. Конечно же, выдача начинается с Яндекс.Маркет:

Но в некоторых случаях Яндекс бессилен…

Как это работает (+ 11 фото из презентации)

Разберем подробнее презентацию нового алгоритма. Ниже будут только выдержки самых интересных моментов с нашими комментариями и слайды из презентации.

Новая версия поиска основана на нейронной сети. Она состоит из большого количества нейронов. У нейрона есть один выход и несколько входов, он умеет суммировать полученную информацию и после преобразования передавать ее дальше.

Нейронная сеть может выполнять гораздо более сложные задачи и ее можно обучить понимать смысл текста. Для этого нужно дать ей много обучающих примеров.

Работу в этом направлении Яндекс начал с модели DSSM, состоящей из двух частей, соответствующих запросу и странице. На выходе была оценка, насколько они близки по смыслу.

Для обучения нейросети нужно много обучающих примеров.

Отрицательные – это пара текстов, не связанных по смыслу.

Положительные – пары «текст-запрос», связанные по смыслу.

Согласно презентации, Яндекс использовал для обучения массив данных о поведении пользователей на выдаче и считал связанными по смыслу запрос и страницу, на которую часто кликают пользователи в выдаче. Но как позже пояснил Михаил Сливинский, удовлетворенность пользователя результатами поиска меряются не только кликами:

Как ранее рассказывал в презентации "Палеха" Александр Садовский, наличие клика не говорит о том, что документ релевантен, а отсутствие, что не релевантен. Модель Яндекса предсказывает, задержится ли пользователь на сайте и учитывает множество других метрик удовлетворенности пользователя.

После обучения модель представляет текст в виде набора 300 чисел – семантического вектора. Чем ближе тексты по смыслу, тем больше сходство чисел векторов.

В поиске Яндекса нейронные модели использовались давно, но в алгоритме «Королёв» увеличено влияние нейронных сетей на ранжирование.

Теперь при оценке смысловой близости алгоритм смотрит не только на заголовок, но и на текст страницы.

Параллельно Яндекс работал над алгоритмом сравнения смыслов запросов на основании нейронных сетей. Например, если для одного запроса поисковая система точно знает лучший ответ, а пользователь ввел запрос, очень близкий к нему, тогда результаты поиска должны быть похожи. В качестве иллюстрации такого подхода Яндекс приводит пример: «ленивая кошка из монголии» – «манул». ()

В «Палехе» нейронные модели применялись только на самых поздних стадиях ранжирования, приблизительно на 150 лучших документов. Поэтому на ранних стадиях ранжирования часть документов терялась, а они могли быть хорошими. Это особенно важно для сложных и низкочастотных запросов.

Теперь вместо вычисления семантического вектора во время исполнения запроса Яндекс делает вычисления заранее – при индексации. «Королёв» проводит вычисления на 200 тыс. документов на запрос, вместо 150, которые были раньше при «Палехе». Сначала такой метод предварительного расчета был испытан на «Палехе», это позволило сэкономить на мощности и находить соответствие запросу не только заголовка, но и текста.

Поисковик берет полный текст на этапе индексации, проводит нужные операции и получает значение. В итоге для всех слов и популярных пар слов формируется дополнительный индекс со списком страниц и их предварительной релевантностью запросу.

Команда Яндекса, которая занималась проектированием и внедрением нового поиска, запускает его.

Запуск алгоритма:

Обучение искусственного интеллекта

В Яндексе уже много лет задачей сбора данных для машинного обучения занимаются асессоры, которые оценивают релевантность документов запросу. С 2009 по 2013 год поисковик получил более 30 млн таких оценок.

За это время появился поиск по картинкам, по видео, внутренние классификаторы и алгоритмы: количество проектов Яндекса выросло.

Так как все они работали на технологиях машинного обучения, требовалось больше оценок и больше асессоров. Когда асессоров стало больше 1500, Яндекс запустил краудсорсинговую платформу «Толока» , где может зарегистрироваться и выполнять задания любой человек.

Например, вот такие задания встречаются в «Толоке»:

Или такие:

Если хотите подробнее узнать, как пользователи оценивают релевантность ответов, чтобы понимать, какие параметры выдачи оцениваются, рекомендуем почитать инструкции по заданиям или даже попробовать пройти обучение.

За несколько лет в сервисе собралось более 1 млн человек, которые сделали более 2 млрд оценок. Это позволило Яндексу сделать огромный рывок в масштабировании и объеме обучающих данных. Только в 2017 году задания выполняли более 500 000 человек.

Среди заданий есть:

Оценка релевантности документов;

Задания для развития карт. Так проверяют актуальность данных об организациях для базы Справочника;

Задания для настройки речевых технологий голосового поиска.

Правила, которым Яндекс хочет научить алгоритм, открыты всем зарегистрированным пользователям в виде инструкций для работников «Толоки». По некоторым заданиям просто собирается субъективное мнение людей.

Вот выдержка из инструкции о том, как Яндекс определяет релевантность документа:

Яндексу очень важно качество оценок. Оно может быть субъективно, поэтому задания даются сразу нескольким людям, а потом математическая модель оценивает распределение голосов с учетом степени доверия к каждому работнику и экспертизы каждого участника. Для каждого «толокера» хранятся данные о точности оценок по каждому проекту и сводятся в единый рейтинг.

Именно поэтому нельзя сетовать на то, что необъективность асессоров погубила ваш сайт.

Таким образом, в Яндексе появилась дополнительная группа факторов:

Смысл страницы и соответствие ее запросу;
Является ли документ хорошим ответом на похожие пользовательские запросы.

Что изменилось в топе Яндекса?

Алгоритм предположительно был запущен несколько раньше презентации и, если верить сторонним сервисам (например, https://tools.pixelplus.ru/updates/yandex), изменения в выдаче начались еще в начале августа, но неизвестно, связано ли это с алгоритмом «Королев».

По этим данным можно выдвинуть гипотезу, что уменьшение доли главных страниц в топ-100 и уменьшение возраста документов в пределах топ-100 связано с новым алгоритмом, который помогает получить больше релевантных ответов.

Правда, при этом заметных изменений в топ-10, топ-20 или топ-50 не видно. Возможно, их там нет либо они незначительны. Мы также не заметили существенных изменений выдачи по продвигаемым запросам.

Текстовая релевантность в стандартном понимании никуда не делась. Подборки и более широкие ответы по многословным запросам содержат большое количество страниц с вхождениями слов запроса в title и текст:

Свежесть результатов поиска тоже имеет значение. Пример из презентации Яндекса содержит ряд свежих результатов с искомой фразой целиком.

Хотя, учитывая тот факт, что алгоритм проводит расчеты сразу при индексации, «Королев» теоретически может влиять и на подмешивание результатов быстроботом.

Надо ли как-то оптимизировать тексты под «Королев»?

Скорее наоборот: чем больше поисковик учится определять смысл текста, тем меньше требуется вхождений ключевых слов и тем больше требуется смысла. Но принципы оптимизации не меняются.

Например, еще в 2015 году Google рассказал об алгоритме RankBrain, который помогает поиску лучше отвечать на многословные запросы, заданные на естественном языке. Он неплохо работает, что отметили пользователи в многочисленных публикациях сравнения поиска Яндекса и Google после анонса новой версии алгоритма.

Это не сопровождалось масштабной презентацией и сильно не повлияло на работу специалистов. Никто целенаправленно не занимается «оптимизацией под RankBrain», поэтому и в Яндексе это никак глобально не меняет работу специалиста. Да, появился тренд на поиск и включение в текст так называемых LSI-ключей, но это явно не просто часто повторяющиеся слова на страницах конкурентов. Ожидаем развития SEO-сервисов в этом направлении.

В алгоритме также заявлено, что анализируется смысл и других запросов, по которым пользователи попадают на страницу. Опять же, в перспективе это должно дать одинаковую или похожую выдачу по синонимичным запросам, так как сейчас результат анализа выдачи порой показывает, что пересечений по синонимичным запросам в выдаче нет. Будем надеяться, что алгоритм поможет устранить подобные несоответствия.

Но Яндекс пока не может найти (или плохо находит) документы, близкие по смыслу к запросу, но вовсе не содержащие слов запроса ().

Советы:

Убедитесь, что страница отвечает на запросы, под которые она оптимизирована и по которым переходят пользователи.

Убедитесь, что страница все же включает слова из поисковых запросов. Мы не говорим про прямые вхождения, просто проверьте, есть ли слова из запросов в любой форме на странице.

Тематические слова могут придать странице дополнительную релевантность, но это явно не просто часто повторяющиеся слова на страницах конкурентов. Ожидаем развития SEO-сервисов в этом направлении.

Для ключевых фраз, по которым страница сайта хорошо ищется, проверьте, не выбивается ли показатель отказов из среднего показателя по сайту. Если по запросу сайт находится на высокой позиции и пользователь находит то, что ему нужно, сайт может быть показан по сходным по смыслу ключевым фразам (если такие есть).

Клики на поиске показывают удовлетворенность пользователя результатом. Это не ново, но стоит еще раз проверить сниппеты по ключевым запросам. Возможно, где-то получится повысить кликабельность.

Как проверить влияние алгоритма на свой сайт?

Для сайтов, у которых нет ярко выраженной сезонности, вы можете сравнить количество низкочастотных ключевых фраз, по которым переходили на сайт до запуска алгоритма и после. Например, взять неделю в июле и неделю в августе.

Выбираем «Отчеты – Стандартные отчеты – Источники – Поисковые запросы».

Выбираем визиты из Яндекса:

И фильтром оставляем только те запросы, по которым был 1 переход. Дополнительно стоит исключить фразы, содержащие название бренда.

Также можете посмотреть наличие поисковых фраз, слов из которых у вас нет в тексте. В целом, такие фразы присутствовали среди НЧ-запросов и раньше, просто сейчас их может стать заметно больше.

Перспективы и прогноз

Поисковик сможет еще лучше находить документы, близкие по смыслу к запросу. Наличие вхождений станет еще менее важным.

К текущему алгоритму будет добавлена персонализация.

В перспективе хорошие материалы, отвечающие на вопрос пользователя, могут получить еще больше трафика по микрочастотным, редким или семантически похожим запросам.

По низкочастотным ключевым фразам может увеличиться конкуренция за счет большей релевантности неоптимизированных документов.

Гипотеза. С помощью подобных алгоритмов Яндекс может лучше оценивать, насколько семантически связаны страницы, ссылающиеся на другие, и учитывать это для оценки внешних ссылок. Если это может быть значимым фактором с учетом слабого влияния ссылок в Яндексе.

Нам стоит ожидать дальнейших изменений, связанных с нейросетями, и в других сервисах Яндекса.

Вопрос-ответ

Вопрос : так как Яндекс оценивает клики, значит ли это, что накрутка поведенческих факторов будет набирать обороты?

Вопрос : связан ли «Королев» с «Баден-Баденом»?

Вопрос : как включить новый поиск Яндекса?

Ответ : в блоге Яндекса и в поисковых запросах часто встречались вопросы, как включить или установить новый поиск. Никак . Новый алгоритм уже работает и никаких дополнительных настроек делать не нужно.

В результате технологического прогресса стало возможным производить необходимые операции, не выходя из дому. Теперь даже работать можно через Сеть, и многие уже давно неплохо чувствуют себя на этом поприще. Самый распространенный вид заработка в Интернете - создание собственного сайта или блога. Благодаря размещенной на ресурсе рекламе его владелец может получать хорошую прибыль. Правда, эта схема работает только тогда, когда сайт или блог находятся на первых страницах поиска. Проще говоря, от количества посетителей на ресурсе зависит уровень дохода его владельца.

И первое, что нужно знать, приступая к такой деятельности, - как работают поисковые алгоритмы, в частности алгоритмы "Яндекса", самой большой поисковой системы Рунета.

Что такое поисковые алгоритмы?

Поисковые алгоритмы, они же алгоритмы "Яндекса", представляют собой некую математическую формулу, где запрос пользователя является неизвестным. Поисковый робот решает эту формулу: подставляет вместо неизвестного разные значения и выбирает самое подходящее.

Если упростить определение, то можно выразиться следующим образом: поисковый алгоритм - это специальная программа, которая забирает «проблему», в нашем случае поисковый запрос, и дает ее «решение», то есть показывает список сайтов с необходимой пользователю информацией.

Решая «проблему», алгоритм просматривает все ключевые слова на страницах, сортирует полученные данные и формирует нужную для пользователя поисковую выдачу. Благодаря поисковому алгоритму, роботы могут анализировать содержимое каждого ресурса. На основе полученной информации определяется положение сайта в поисковой выдаче.

Что влияет на поисковый алгоритм?

Как уже можно было заметить, поисковая выдача по одному и тому же запросу в разных поисковых системах разная. Так, алгоритм "Яндекса" значительно отличается от Google. Например, для чистоты эксперимента откроем две вкладки: одна поисковая система от "Яндекс", другая - от Google. Если ввести в строку поиска запрос «как уехать в Японию на ПМЖ», то можно увидеть, что первый сайт в выдаче "Яндекс" находится на втором месте в выдаче Google.

Алгоритмы поисковиков находятся под строгим секретом, они анализируют одни и те же параметры сайта, но каким уделяют больше внимания, а каким меньше - никому не известно. Даже СЕО-оптимизаторы задаются этим вопросом.

Параметры, с которыми работают алгоритмы

Как уже было сказано, поисковые алгоритмы "Яндекса" руководствуются определенными параметрами. В целом их можно разделить на две группы. Одни параметры отвечают за смысловое наполнение ресурса, их можно условно назвать «текстовыми». Другие - характеризуют технические характеристики (дизайн, плагины и т. д.). Условно можно обозначить их как «инженерно-функциональные». Для наглядности стоит разбить все параметры по группам и разместить в таблице.

«Текстовые»	«Инженерно-функциональные»
Язык ресурса	Возраст сайта, доменное имя, местоположение.
Популярность темы и количество текста на каждой странице.	Количество страниц и их «вес»
Соотношения ключевых слов к общему количеству текста.	Наличие стилевого решения
Количество цитат и уровень уникальности контента	Количество запросов по конкретному ключевому слову и частота обновляемой информации.
Размер шрифта и его тип	Наличие мультимедийных файлов, фреймов, флэш-модулей и мета-тегов
Число ссылок в тексте	Стиль заголовков, подзаголовков и КС
Соответствие ключевых слов разделу каталога, где зарегистрирован сайт.	Комментарии в программном коде, тип страницы, наличие дублей

Ранжирование

Эти параметры играют ключевую роль в алгоритмах ранжирования. Алгоритм ранжирования - это способ, благодаря которому можно узнать ценность каждой страницы. Проще говоря, если сайт имеет хорошие показатели по всем этим параметрам, то он будет находиться выше в поисковой выдаче.

Алгоритмы ранжирования "Яндекса" меняются практически каждый год. Основные из них названы в честь городов. Название новой поисковой концепции начинается с последней буквы названия предыдущего алгоритма. Так, поисковая система создала алгоритмы:

"Магадан" (2008 год).
"Находка" (2008 год).
"Арзамас" (2009 год).
"Снежинск" (2009 год).
"Конаково" (2010 год).
"Обнинск" (2010 год).
"Краснодар" (2010 год).
"Рейкьявик" (2011 год).
"Калининград" (2012 год).
"Дублин" (2013 год).
"Началово" (2014 год).
"Одесса" (2014 год).
"Амстердам" (2015 год).
"Минусинск" (2015 год).
"Киров" (2015 год).

Помимо них, в последние два года вышло еще три поисковых алгоритма "Яндекса". А также существуют особые алгоритмы АГС-17 и АГС-30, основная задача которых - искать ресурсы, которые не удовлетворяют требованиям. Проще говоря, эти алгоритмы ищут сайты с неуникальным контентом и обилием ключевых слов, а после применяют к ним штрафные санкции. А теперь о каждом алгоритме понемногу.

Алгоритмы 2008-2011 годов

За два года "Яндекс" создал четыре поисковых алгоритма, которые качественно отличались от предыдущих, начальных версий. В 2008 году впервые в поисковом ранжировании начали учитывать уникальность контента ("Магадан"). Впервые была введена новая система, которая принимала во внимание наличие стоп-слов ("Находка").

В 2009 году алгоритм поиска "Яндекс" начал учитывать регион пользователя, появился новый классификатор геозависимых и геонезависимых запросов. Значительно улучшилась региональная формула подбора ответов ("Арзамас"). Сильно изменилась выдача, появилось 19 новых формул регионального ранжирования и обновились критерии геонезависимого ранжирования ("Снежинск", "Конаково").

В 2010 году алгоритмы поисковых систем "Яндекс" активно разрабатывали новые формулы для геозависимых и геонезависимых запросов ("Обнинск", "Краснодар"). 2011 год ознаменовался началом создания персонализированной выдачи, стали учитываться языковые предпочтения интернет-пользователей.

Поисковое ранжирование 2012-2014 годов

В 2012 году персонализация выдачи существенно изменилась: стали учитывать интересы пользователей в долгосрочной перспективе, повышалась релевантность часто посещаемых сайтов ("Калининград"). В 2013 году алгоритм "Яндекса" уже умело подстраивал результаты поисковой выдачи под интересы конкретного пользователя во время сессии, учитывал кратковременные интересы ("Дублин"). В 2014 году был отменен учет ссылок для коммерческих запросов при ранжировании ответов ("Началово").

"Амстердам", "Минусинск", "Киров"

В поисковой выдаче возле результата начала появляться карточка с информацией при наведении на ссылку курсора ("Амстердам"). Впервые задачей алгоритма "Яндекс" стало понижение в ранжировании ресурсов, что имели много СЕО-ссылок. Наличие обширного ссылочного профиля стало основной причиной потери позиций. Алгоритм "Минусинск" "Яндекса" начал массово снимать СЕО-ссылки, немного позже учет ссылочных факторов вернули, но только в Московском регионе.

В третьем за этот год алгоритме была внедрена рандомизация релевантных запросов. Проще говоря, при выдаче запросы можно было сортировать по дате, популярности или региону ("Киров").

"Владивосток" и "Палех"

Алгоритм "Владивосток", начавший функционировать в начале 2016 года, стал учитывать адаптивность ресурсов к мобильным устройствам, повысились результаты мобильной выдачи.

Особого внимания заслуживает алгоритм «Палех», который презентовали в ноябре. Его основная суть состоит в сопоставлении смысла вопроса и страниц при помощи нейросетей - искусственного интеллекта, который моделирует работу человеческого мозга. Благодаря этому повысилась выдача по редким запросам. Изначально этот алгоритм работал исключительно с заголовками страниц, но, как говорят создатели, со временем научится «понимать» и сам текст. Работа алгоритма заключается в следующем:

Система учитывает статистику соответствия запроса и заголовка, тем самым повышая точность поисковой выдачи.
Работа с такими соответствиями получила название «семантический вектор». Такой подход к поисковому ранжированию помогает находить ответы на самые редкие запросы. Алгоритм, который научился понимать текст, может выдавать результаты в которых не будет ни единого похожего слова с запросом, но, тем не менее, они полностью соответствуют друг другу по содержанию.

Проще говоря, в "Яндексе" попытались создать «разумную» технологию, которая ищет ответы, опираясь не на ключевые слова, а на само содержание текста.

"Баден-Баден"

Новый алгоритм "Яндекса", вышедший в марте 2017 года, стал настоящим прорывом в системе поискового ранжирования. В поисковой выдаче на первое место начали выводить сайты с полезным, понятным и читабельным контентом. Основная алгоритма - предоставить пользователю не текст, соответствующий запросу, а нужную информацию.

За время работы «Баден-Баден» понизились в поисковой выдаче ресурсы с переоптимизированой и некачественной информацией. Эксперты были уверены, что упадут позиции интернет-магазинов, так как там слишком много повторяющихся слов и описаний товаров, что практически ничем не отличаются. Но разработчики алгоритма учитывали, что есть специфические темы, где повтор однокоренных слов неизбежен. Так какие же тексты попадают под санкции? Лучше это посмотреть на примере.

Текст, не соответствующий поисковому алгоритму

Раньше поисковые роботы выводили на первые позиции ресурсы, в которых были ключевые слова. Но тексты на таких сайтах зачастую выглядят как набор запросов, разбавленных «водой» некачественных текстов. И приведенный ниже пример - тому доказательство:

«Ежегодно Nike выпускает бесчисленное множество товаров для занятий спортом. Кроссовки, кеды, бутсы, костюм Nike, футболка Nike, шорты, спортивный костюм Nike, штаны, спортивные штаны Nike, футбольные мячи - эти и другие товары можно найти в любом фирменном магазине. Женские Nike, мужские и детские коллекции передают главную тему марки. Одежда Nike уникальна тем, что каждый товар передает настроение бренда».

Такие тексты не несут пользы, это не более чем шкатулки с ключевыми запросами. Вот с ними и борется новый алгоритм. Контент с низким качеством непременно потеряет свои позиции. Существуют три критерия низкокачественного контента:

Отсутствие логики в тексте.
ключевых слов.
Присутствие в тексте неестественных фраз, которые появились из-за прямых вхождений ключевых слов.

Естественно, СЕО-оптимизацию никто не отменял, базовые принципы поисковых систем остаются прежними. Вот только подход, при котором на 1000 знаков приходится 15-20 ключевых запросов, уже давно устарел. Алгоритм "Баден-Баден" акцентирует внимание на качестве контента.

Поисковая выдача

Важное место в процессе нахождения информации занимает алгоритм выдачи. Выдача - это страница результатов, отвечающих определенному запросу. Алгоритм выдачи "Яндекса" построен таким образом, что может просчитать вероятность нахождения самого релевантного ответа и сформировать выдачу из десяти ресурсов. В случае когда запрос сложный, то в выдаче можно найти 15 ответов.

1. Язык ресурса

2. Популярность темы и количество текста на каждой странице.

3. Соотношения ключевых слов к общему количеству текста.

4. Количество цитат и уровень уникальности контента

5. Размер шрифта и его тип

6. Число ссылок в тексте

7. Соответствие ключевых слов разделу каталога, где зарегистрирован сайт.

В действительности это работает так: если алгоритм «знаком» с запросом и по нему есть высокорелевантный ответ, то формируется выдача из десяти ответов. В случае, когда поисковая система не может найти таких ответов, в выдаче будет представлено 15 ссылок.

Вот, собственно, и все основы алгоритмов. Для того чтобы сайт хорошо себя чувствовал, при поисковой выдаче необходимо наполнить его качественным, информативным и читабельным контентом.