«Яндекс» запустил гибридную систему перевода с использованием нейросетей
14 сентября 2017 года
Компания "Яндекс" объявила о внедрении в сервис "Яндекс.Переводчик" гибридной системы перевода, использующей как привычный статистический метод перевода, так и нейросети.
"При переводе нейросеть не разбивает тексты на отдельные слова и фразы - она обрабатывает целые предложения. За счет этого переведенный текст хорошо читается: порой даже можно подумать, что его написал человек. Статистический переводчик так не умеет, зато хорошо запоминает и переводит редкие и сложные слова и фразы. Работая вместе, две системы компенсируют недостатки друг друга", - говорится в сообщении, опубликованном в блоге "Яндекса".
Как пояснили в компании, с момента запуска "Яндекс.Переводчик" использовал статистическую систему перевода, которая предусматривает разбивку предложений на части и подбор всех возможных переводов для каждого из фрагментов с определением их вероятности. После этого система составляет различные варианты переведенного приложения, выбирая тот, в котором содержатся фрагменты с высокими вероятностями, хорошо сочетающиеся друг с другом.
Преимущество такой системы заключается в том, что статистический переводчик хорошо запоминает редкие и сложные слова и фразы. В то же время результат перевода нередко бывает похож на мозаику: общая картина понятна, но заметно, что она составлена из отдельных кусочков.
Что же касается нейросетевого переводчика, то, как и статистический, он анализирует массив параллельных текстов и учится находить в них закономерности. Однако нейросеть работает не со словами и фразами, а с предложениями. Такой подход позволяет учесть смысловые связи внутри предложения, поняв его контекст.
"У нейросетевого перевода тоже есть свои недостатки. Если по каким-то причинам нейронной сети трудно перевести то или иное предложение – а такое время от времени случается, - она поведёт себя примерно как студент на экзамене: начнет что-то выдумывать от себя в надежде угадать правильный ответ", – отметили в "Яндексе".
Еще один минус нейросетевого переводчика состоит в том, что он, в отличие от статистического перевода, не всегда хорошо справляется с переводом редких слов.
Именно поэтому компания решила объединить два подхода и создать гибридную систему, которая объединяет статистический и нейросетевой перевод.
"Когда "Яндекс.Переводчик" получает от пользователя текст, он отдает его на перевод обеим системам – и нейронной сети, и статистическому переводчику. Затем алгоритм, основанный на методе обучения CatBoost, оценивает, какой перевод лучше. При выставлении оценки учитываются десятки факторов – от длины предложения (короткие фразы лучше переводит статистическая модель) до синтаксиса. Перевод, признанный лучшим, показывается пользователю", – говорится в сообщении.
В настоящее время гибридная система перевода доступна в веб-версии "Яндекс.Переводчика" для переводов с английского языка на русский (на это направление приходится около 80% всех запросов к сервису). В ближайшие месяцы компания намерена запустить систему и для других направлений. При этом разработчики встроили в систему переключатель, который позволят пользователям сравнить гибридный и статистический переводы.
Напомним, в начале августа элементы искусственного интеллекта в свою систему перевода публикаций внедрила социальная сеть Facebook, а ранее нейросети начали использовать в сервисе Google Translate.
Источники
правитьЛюбой участник может оформить статью: добавить иллюстрации, викифицировать, заполнить шаблоны и добавить категории.
Любой редактор может снять этот шаблон после оформления и проверки.
Комментарии
Если вы хотите сообщить о проблеме в статье (например, фактическая ошибка и т. д.), пожалуйста, используйте обычную страницу обсуждения.
Комментарии на этой странице могут не соответствовать политике нейтральной точки зрения, однако, пожалуйста, придерживайтесь темы и попытайтесь избежать брани, оскорбительных или подстрекательных комментариев. Попробуйте написать такие комментарии, которые заставят задуматься, будут проницательными или спорными. Цивилизованная дискуссия и вежливый спор делают страницу комментариев дружелюбным местом. Пожалуйста, подумайте об этом.
Несколько советов по оформлению реплик:
- Новые темы начинайте, пожалуйста, снизу.
- Используйте символ звёздочки «*» в начале строки для начала новой темы. Далее пишите свой текст.
- Для ответа в начале строки укажите на одну звёздочку больше, чем в предыдущей реплике.
- Пожалуйста, подписывайте все свои сообщения, используя четыре тильды (~~~~). При предварительном просмотре и сохранении они будут автоматически заменены на ваше имя и дату.
Обращаем ваше внимание, что комментарии не предназначены для размещения ссылок на внешние ресурсы не по теме статьи, которые могут быть удалены или скрыты любым участником. Тем не менее, на странице комментариев вы можете сообщить о статьях в СМИ, которые ссылаются на эту заметку, а также о её обсуждении на сторонних ресурсах.