Представлена техника воссоздания речи по вибрации предметов на видеозаписи
8 августа 2014 года
Группа исследователей из Массачусетского технологического института в сотрудничестве с Microsoft и Adobe, разработала технику воссоздания речи на основе анализа вибрации предметов в видеозаписи. Для воссоздания речи достаточно записи с частотой 60 кадров в секунду и наличия в кадре легко вибрирующих предметов, таких как упаковка от чипсов, стакан воды и даже листья комнатных растений.
Техника воссоздания речи по вибрации предметов не нова и активно используется спецслужбами для организации подслушивания в помещениях по вибрации оконного стекла или предметов. Но до сих пор для воплощения данной техники требовались специализированные высокочувствительные устройства, такие как лазерные микрофоны. Новый метод позволяет обойтись обычной видеокамерой с разрешением порядка 700x400.
Суть метода в том, что для того чтобы уловить колебания предмета в несколько микрометров, которые невозможно заметить через перемещение пикселей (изменение в 5/1000 пикселя), используется анализ изменения цвета отдельных пикселей граничных областей предметов. Камера не улавливает малые вибрации на уровне перемещения пикселей, но отражает их через аберрации цветового спектра. Изначально эксперименты проводились с использованием высокоскоростных камер, способных снимать с частотой 2-6 тысяч кадров в секунду, но по мере усовершенствования техники разработчики смогли обеспечить разбор речи и при съёмке обычной DSLR-камерой, выдающей 60 кадров в секунду.
Для доведения частоты выборки до значений, пригодных для анализа звуковых колебаний использовалась особенность вывода данных с сенсора цифровых камер. Данные с сенсора выдаются не одновременно, а построчно, те каждая следующая строка сканируется с небольшим запаздыванием, что позволяет рассматривать разные пиксели по вертикали как несущие полные данные об экспозиции в разные моменты времени.
Из пока не решённых ограничений отмечается необходимость съемки вибрирующего предмета крупным планом. Максимальное расстояние до камеры, с которого удалось обеспечить воссоздание приемлемого для разбора качества звука, составило 4 метра. В качестве возможного пути для обхода данного ограничения упоминается использование мощных линз для увеличения. Процесс анализа является достаточно ресурсоёмкой операцией и требует до двух часов вычислений и 32Гб ОЗУ на современном персональном компьютере для обработки одного кадра.
Источники
правитьЛюбой участник может оформить статью: добавить иллюстрации, викифицировать, заполнить шаблоны и добавить категории.
Любой редактор может снять этот шаблон после оформления и проверки.
Комментарии
Если вы хотите сообщить о проблеме в статье (например, фактическая ошибка и т. д.), пожалуйста, используйте обычную страницу обсуждения.
Комментарии на этой странице могут не соответствовать политике нейтральной точки зрения, однако, пожалуйста, придерживайтесь темы и попытайтесь избежать брани, оскорбительных или подстрекательных комментариев. Попробуйте написать такие комментарии, которые заставят задуматься, будут проницательными или спорными. Цивилизованная дискуссия и вежливый спор делают страницу комментариев дружелюбным местом. Пожалуйста, подумайте об этом.
Несколько советов по оформлению реплик:
- Новые темы начинайте, пожалуйста, снизу.
- Используйте символ звёздочки «*» в начале строки для начала новой темы. Далее пишите свой текст.
- Для ответа в начале строки укажите на одну звёздочку больше, чем в предыдущей реплике.
- Пожалуйста, подписывайте все свои сообщения, используя четыре тильды (~~~~). При предварительном просмотре и сохранении они будут автоматически заменены на ваше имя и дату.
Обращаем ваше внимание, что комментарии не предназначены для размещения ссылок на внешние ресурсы не по теме статьи, которые могут быть удалены или скрыты любым участником. Тем не менее, на странице комментариев вы можете сообщить о статьях в СМИ, которые ссылаются на эту заметку, а также о её обсуждении на сторонних ресурсах.