Американские лингвисты нашли способ установить автора анонимной публикации в интернете с точностью до 80%
11 января 2013 года
На хакерской конференции Chaos Communication Congress 29C3 группа американских аспирантов-лингвистов из Университета Дрекселя (Филадельфия) представила свою разработку – программу для установления авторства текста.
Подобная программа может помочь в выявлении хакеров, взломщиков программ и создателей вредоносных вирусов. Инструмент деанонимизации пока что существует в виде альфа-версии; его разработка еще не завершена, сообщает ХАКЕР.ру.
Методика, использованная создателями программы, основана на стилометрии, прикладной области лингвостилистики, занимающейся статистическим анализом письменного текста.
Программа выявляет закономерности в текстах, а также использование служебных слов, которые создают уникальное строение предложения в каждом конкретном случае. Тексты на языках, отличных от английского, переводятся на английский и тоже отлично анализируются программой, с определением автора.
Технология распознавания способна работать с текстами разных стилей. Например, можно определить автора научной работы по его сообщениям в чате, и наоборот. На выборке из 100 пользователей подпольных форумов и хакерских чатов система показала точность распознавания 80%.
Авторы считают, что систему стилометрического анализа можно успешно использовать для выявления владельцев ботнетов, продавцов нелегального товара в интернете, авторов вредоносных программ и др. Подобные возможности системы могут заинтересовать правоохранительные органы.
Исследователи провели сканирование миллионов сообщений на форумах thebadhackerz.com, blackhatpalace.com, www.carders.cc, free-hack.com, hackel1te.info, hack-sector.forumh.net, rootwarez.org, L33tcrew.org и antichat.ru с участием нескольких десятков тысяч авторов дискуссий. Программа сумела определить 300 тем обсуждений на форумах, самые популярные из которых — кардинг, сервисы шифрования, взлом паролей и инструменты для "черной" поисковой оптимизации.
Однако для выявления автора текста необходимо будет соблюсти ряд условий, которые обеспечат высокую точность анализа.
Так, в исследовании должно участвовать не более 50 авторов текстов, на каждого из которых необходимо собрать соответствующий материал - тексты совокупной длиной не менее 6500 слов. Также не представится возможным определить авторство текста, длина которого будет менее 500 слов.
Затруднить поиск могут использование автором жаргона, "альтернативного алфавита" или языка, отличного от английского, однако текст, переведенный автоматическим переводчиком, также может успешно выступать материалом для анализа.
Отметим, что в рамках того же проекта ведется и разработка "убийцы" программ, определяющих авторство, - системы, призванной помочь авторам избавиться от уникальности своих текстов.
Источники
правитьЛюбой участник может оформить статью: добавить иллюстрации, викифицировать, заполнить шаблоны и добавить категории.
Любой редактор может снять этот шаблон после оформления и проверки.
Комментарии
Если вы хотите сообщить о проблеме в статье (например, фактическая ошибка и т. д.), пожалуйста, используйте обычную страницу обсуждения.
Комментарии на этой странице могут не соответствовать политике нейтральной точки зрения, однако, пожалуйста, придерживайтесь темы и попытайтесь избежать брани, оскорбительных или подстрекательных комментариев. Попробуйте написать такие комментарии, которые заставят задуматься, будут проницательными или спорными. Цивилизованная дискуссия и вежливый спор делают страницу комментариев дружелюбным местом. Пожалуйста, подумайте об этом.
Несколько советов по оформлению реплик:
- Новые темы начинайте, пожалуйста, снизу.
- Используйте символ звёздочки «*» в начале строки для начала новой темы. Далее пишите свой текст.
- Для ответа в начале строки укажите на одну звёздочку больше, чем в предыдущей реплике.
- Пожалуйста, подписывайте все свои сообщения, используя четыре тильды (~~~~). При предварительном просмотре и сохранении они будут автоматически заменены на ваше имя и дату.
Обращаем ваше внимание, что комментарии не предназначены для размещения ссылок на внешние ресурсы не по теме статьи, которые могут быть удалены или скрыты любым участником. Тем не менее, на странице комментариев вы можете сообщить о статьях в СМИ, которые ссылаются на эту заметку, а также о её обсуждении на сторонних ресурсах.