«Яндекс» представил поисковый алгоритм «Палех», использующий нейросети для понимания сложных запросов
3 ноября 2016 года
Компания "Яндекс" 2 ноября представила новый поисковый алгоритм под названием "Палех", который использует в работе нейросети и способен находить страницы, которые соответствуют не только ключевым словам, но и смыслу запроса пользователя.
"Каждый день поиск "Яндекса" отвечает примерно на 280 миллионов запросов. Какие-то из них, например "ВКонтакте", люди вводят в поисковую строку практически каждую секунду. Какие-то запросы уникальны - их задают один раз, и они, возможно, больше никогда не повторятся. Уникальных и просто редких запросов очень много - около ста миллионов в день", - говорится в сообщении, опубликованном в блоге компании.
Своим названием новый алгоритм обязан специфике графика частотного распределения запросов в "Яндексе", который представляют в виде птицы с клювом, туловищем и длинным хвостом. Так, короткий "клюв" включает самые распространенные и часто задаваемые запросы. Запросы средней частотности образуют "туловище" птицы. Наконец, низкочастотные запросы по отдельности встречаются чрезвычайно редко, но вместе составляют существенную часть поискового потока и поэтому складываются в длинный "хвост".
"Новый алгоритм позволяет поиску Яндекса лучше отвечать на сложные запросы из "длинного хвоста". Такой хвост есть у сказочной Жар-птицы, которая часто появляется на палехской миниатюре. Поэтому мы дали алгоритму название "Палех", - поясняют в компании.
Сложные запросы из хвоста можно разделить на несколько групп. Например, одна из них представляет собой запросы пользователей, которые общаются с поисковиком как с живым собеседником, а другая - запросы тех, кто пытается вспомнить название книги или фильма по содержанию, например "фильм про человека который выращивал картошку на другой планете" ("Марсианин").
"Особенность запросов из "длинного хвоста" в том, что обычно они более сложны для поисковой системы. Запросы из "клюва" задают многократно, и для них есть масса разнообразной пользовательской статистики. Чем больше знаний о запросах, страницах и действиях пользователей накопил поиск, тем лучше он находит релевантные результаты. В случае с редкими запросами поведенческой статистики может не быть - а значит, "Яндексу" гораздо труднее понять, какие сайты хорошо подходят для ответа, а какие не очень. Задача осложняется тем, что далеко не всегда на релевантной страничке встречаются слова из запроса - ведь один и тот же смысл в запросе и на странице может быть выражен совершенно по-разному", - говорится в сообщении.
Новый алгоритм решает эту задачу при помощи нейронных сетей, которые были обучены на накопленной базе текстов поисковых запросов и заголовках веб-страниц. В результате нейросеть научилась понимать смысловое соответствие между запросом и заголовками страниц.
"Компьютеру проще работать с числами, чем с буквами, поэтому поиск соответствий между запросами и веб-страницами сводится к сравнению чисел. Мы научили нейронную сеть переводить миллиарды известных "Яндексу" заголовков веб-страниц в числа - а точнее, в группы из трехсот чисел каждая. В результате все документы из базы данных Яндекса получили координаты в трехсотмерном пространстве", - говорится в сообщении.
Представить такое пространство и описанную систему координат достаточно трудно, поэтому для упрощения в компании предлагают представить, что каждой веб-странице соответствует группа не из трехсот, а из двух чисел. Тогда получится, что каждое число - это определенная координата по одной из двух осей, а каждая веб-страница просто соответствует точке на двумерной координатной плоскости. Такой способ обработки запроса и его сопоставления с вероятными ответами в компании назвали семантическим вектором.
"Технология семантических векторов обладает огромным потенциалом. Например, переводить в такие векторы можно не только заголовки, но и полные тексты документов - это позволит еще точнее сопоставлять запросы и веб-страницы. В виде семантического вектора можно представить и профиль пользователя в интернете - то есть его интересы, предыдущие поисковые запросы, переходы по ссылкам", - говорится в релизе.
По мнению создателей алгоритма, далекая цель состоит в том, чтобы получить на основе нейронных сетей модели, способные "понимать" семантическое соответствие запросов и документов на уровне, сравнимом с уровнем человека.
Источники
правитьЛюбой участник может оформить статью: добавить иллюстрации, викифицировать, заполнить шаблоны и добавить категории.
Любой редактор может снять этот шаблон после оформления и проверки.
Комментарии
Если вы хотите сообщить о проблеме в статье (например, фактическая ошибка и т. д.), пожалуйста, используйте обычную страницу обсуждения.
Комментарии на этой странице могут не соответствовать политике нейтральной точки зрения, однако, пожалуйста, придерживайтесь темы и попытайтесь избежать брани, оскорбительных или подстрекательных комментариев. Попробуйте написать такие комментарии, которые заставят задуматься, будут проницательными или спорными. Цивилизованная дискуссия и вежливый спор делают страницу комментариев дружелюбным местом. Пожалуйста, подумайте об этом.
Несколько советов по оформлению реплик:
- Новые темы начинайте, пожалуйста, снизу.
- Используйте символ звёздочки «*» в начале строки для начала новой темы. Далее пишите свой текст.
- Для ответа в начале строки укажите на одну звёздочку больше, чем в предыдущей реплике.
- Пожалуйста, подписывайте все свои сообщения, используя четыре тильды (~~~~). При предварительном просмотре и сохранении они будут автоматически заменены на ваше имя и дату.
Обращаем ваше внимание, что комментарии не предназначены для размещения ссылок на внешние ресурсы не по теме статьи, которые могут быть удалены или скрыты любым участником. Тем не менее, на странице комментариев вы можете сообщить о статьях в СМИ, которые ссылаются на эту заметку, а также о её обсуждении на сторонних ресурсах.