Бесконтрольное обучение поможет обнаружить состязательные атаки
31 августа 2021 года
По мере того, как модели машинного обучения все чаще становятся важным компонентом критических приложений, растет и риск появления новых угроз кибербезопасности, таких как состязательные атаки (adversarial attacks), подразумевающие обман нейросети с тем, чтобы она выдала неверный результат.
Команда специалистов из Университета Карнеги-Меллона и Корейского института передовых технологий (KAIST) разработала новую технику, предполагающую использование объяснительных методов для определения данных, подвергшихся состязательным атакам.
Подобные алгоритмы обычно имеют параметр, ограничивающий объем допустимых изменений для того, чтобы модификации остались незаметными. Существует немало различных способов защиты моделей машинного обучения от состязательных атак, но наиболее популярные методы требуют значительных вычислительных затрат и точности.
В ходе исследования ученые обнаружили связь между состязательными атаками и объяснительностью – еще одним камнем преткновения для моделей машинного обучения. Во многих моделях, особенно в глубоких нейронных сетях, решения сложно отследить из-за большого числа параметров, что усложняет реализацию алгоритмов в приложениях, где требуется объяснение алгоритмических решений.
Новый метод базируется на том, что при «прогонке» модифицированного изображения через объяснительные алгоритмы, будут выдаваться аномальные результаты. Техника позволяет выявлять состязательные атаки на основе их объяснительных карт.
По словам специалистов, защита строится в несколько этапов: на первом «сеть-инспектор» использует объяснительные техники для построения карты визуального внимания (карта салиентности) для образцов данных, используемых для тренировки модели машинного обучения. Далее эти карты применяются для обучения «реконструкторской сети» для воспроизведения каждого решения, принятого моделью. Поскольку конструкторские сети обучаются на безобидных образцах, при работе с вредоносными образцами они выдают необычные результаты, что позволяет «инспектору» обнаруживать и помечать модифицированные изображения.
Специалисты протестировали новый метод на MNIST – базе данных образцов рукописного написания цифр, часто используемой для тестирования различных техник машинного обучения. Согласно результатам, метод бесконтрольного обучения смог справиться с обнаружением состязательных атак наравне или лучше по сравнению с популярными техниками. В будущем исследователи планируют испытать новый метод на более сложных базах данных, таких как CIFAR10/100 и ImageNet.
Источники
правитьЭта статья содержит материалы из статьи «Бесконтрольное обучение поможет обнаружить состязательные атаки», опубликованной на сайте SecurityLab.ru и распространяющейся на условиях лицензии Creative Commons Attribution 3.0 Unported (CC-BY 3.0 Unported). |
Любой участник может оформить статью: добавить иллюстрации, викифицировать, заполнить шаблоны и добавить категории.
Любой редактор может снять этот шаблон после оформления и проверки.
Комментарии
Если вы хотите сообщить о проблеме в статье (например, фактическая ошибка и т. д.), пожалуйста, используйте обычную страницу обсуждения.
Комментарии на этой странице могут не соответствовать политике нейтральной точки зрения, однако, пожалуйста, придерживайтесь темы и попытайтесь избежать брани, оскорбительных или подстрекательных комментариев. Попробуйте написать такие комментарии, которые заставят задуматься, будут проницательными или спорными. Цивилизованная дискуссия и вежливый спор делают страницу комментариев дружелюбным местом. Пожалуйста, подумайте об этом.
Несколько советов по оформлению реплик:
- Новые темы начинайте, пожалуйста, снизу.
- Используйте символ звёздочки «*» в начале строки для начала новой темы. Далее пишите свой текст.
- Для ответа в начале строки укажите на одну звёздочку больше, чем в предыдущей реплике.
- Пожалуйста, подписывайте все свои сообщения, используя четыре тильды (~~~~). При предварительном просмотре и сохранении они будут автоматически заменены на ваше имя и дату.
Обращаем ваше внимание, что комментарии не предназначены для размещения ссылок на внешние ресурсы не по теме статьи, которые могут быть удалены или скрыты любым участником. Тем не менее, на странице комментариев вы можете сообщить о статьях в СМИ, которые ссылаются на эту заметку, а также о её обсуждении на сторонних ресурсах.