Google опубликовал данные и модель машинного обучения для разделения звуков

11 апреля 2020 года

Компания Google опубликовала базу данных эталонных смешанных звуков, снабжённую аннотациями, которую можно использовать в системах машинного обучения, применяемых для разделения произвольных смешанных звуков на отдельные компоненты. Также опубликована универсальная модель глубинного машинного обучения (TDCN++), которая может быть использована в Tensorflow для разделения звуков. Данные подготовлены на основе коллекции freesound.org и опубликованы под лицензией CC BY 4.0.

Представленный проект FUSS (Free Universal Sound Separation) нацелен на решение проблемы разделения любого числа произвольных звуков, о характере которых заранее неизвестно. Другие подобные системы, как правило, ограничены задачей разделения определённых звуков, например, голоса и не голоса или разных говорящих людей.

БД насчитывает около 20 тысяч смешиваний. В набор также входят предварительно рассчитанные импульсные характеристики помещения, подготовленные при помощи специально созданного симулятора комнаты и учитывающие отражение от стен, местоположение источника звука и местоположение микрофона.

Источники править


 
 
Creative Commons
Эта статья содержит материалы из статьи «Google опубликовал данные и модель машинного обучения для разделения звуков», опубликованной OpenNET и распространяющейся на условиях лицензии Creative Commons Attribution (CC BY) — указание автора, источник и лицензию.
 
Эта статья загружена автоматически ботом NewsBots в архив и ещё не проверялась редакторами Викиновостей.
Любой участник может оформить статью: добавить иллюстрации, викифицировать, заполнить шаблоны и добавить категории.
Любой редактор может снять этот шаблон после оформления и проверки.

Комментарии

Викиновости и Wikimedia Foundation не несут ответственности за любые материалы и точки зрения, находящиеся на странице и в разделе комментариев.