Исследователи компании Baidu создали алгоритм, который догнал людей в распознавании речи на английском и мандаринском

17 декабря 2015 года

Лаборатория искусственного интеллекта (SVAIL) исследовательского подразделения китайской компании Baidu улучшила алгоритм распознавания речи под названием Deep Speech, при этом в некоторых случаях вторая версия программы распознает речь даже быстрее людей, передает N+1.

Разработчикам удалось использовать один алгоритм глубокого обучения для распознавания устной речи на двух языках: английском и мандаринском (крупнейший из китайских языков). При этом авторы улучшили распознавание английского в шумных местах, а также продвинулись вперед в быстродействии - создали новую аппаратную платформу на видеокартах, в семь раз подняв производительность по сравнению с предыдущей версией сервера для Deep Speech.

Авторы также протестировали Deep Speech 2 на скорость распознавания коротких фраз, сравнив ее с человеческой. Оказалось, что в некоторых случаях (короткие фразы без контекста) алгоритм справляется с распознаванием даже быстрее людей. Тем не менее Deep Speech 2 все еще уступает людям в распознавании больших фрагментов текста, а также в распознавании речи с акцентом или при большом количестве посторонних шумов.

По словам авторов, система уже готова к применению в онлайн-сервисах и мобильных приложениях и превосходит аналогичные алгоритмы конкурентов. В ближайшем будущем специалисты SVAIL планируют работать в направлении распознавания фраз на английском с акцентом. В частности, исследователи начали обучение нейросети английскому с индийским акцентом.

Кроме Baidu, обучение нейросетей для улучшения своих продуктов используют и другие компании. Facebook, например, разработала алгоритм, способный узнать человека даже со спины, а Google использует обученную нейросеть для перевода надписей на 27 языков в приложении Google Translate.

Источники править

 
 
Creative Commons
Эта статья содержит материалы из статьи «Исследователи компании Baidu создали алгоритм, который догнал людей в распознавании речи на английском и мандаринском», опубликованной NEWSru.com и распространяющейся на условиях лицензии Creative Commons Attribution 4.0 (CC BY 4.0) — при использовании необходимо указать автора, оригинальный источник со ссылкой и лицензию.
 
Эта статья загружена автоматически ботом NewsBots в архив и ещё не проверялась редакторами Викиновостей.
Любой участник может оформить статью: добавить иллюстрации, викифицировать, заполнить шаблоны и добавить категории.
Любой редактор может снять этот шаблон после оформления и проверки.

Комментарии

Викиновости и Wikimedia Foundation не несут ответственности за любые материалы и точки зрения, находящиеся на странице и в разделе комментариев.