Открыт код исследовательского проекта по статистической оценке авторства текста

22 февраля 2013 года

Группа исследователей из нескольких европейских университетов опубликовала свои наработки в области автоматизированной оценки авторства текста на основе статистического анализа предыдущих работ. Система требует предварительного обучения для накопления статистических данных, т.е. после анализа точно принадлежащих автору работ позволяет в дальнейшем оценить является ли лицо автором произвольного текста. Код проекта написан на языке С++ и открыт под лицензией GPLv2. Дополнительно доступна статья с изложением используемого в приложении математического аппарата.

Изначально проект был нацелен на решение задачи определения авторства исторических документов, сведения об авторах которых утеряны или поставлены под сомнение. Тем не менее, у разработки имеются большие перспективы при решении современных задач, от определения авторства электронных писем, анонимных обращений к правоохранительным органам и заметок в блогах, до выявления плагиата в научных и художественных публикациях, организации новых систем поиска в Web и задействования в средствах борьбы со спамом.

Источники

править


 
 
Creative Commons
Эта статья содержит материалы из статьи «Открыт код исследовательского проекта по статистической оценке авторства текста», опубликованной OpenNET и распространяющейся на условиях лицензии Creative Commons Attribution (CC BY) — указание автора, источник и лицензию.
 
Эта статья загружена автоматически ботом NewsBots в архив и ещё не проверялась редакторами Викиновостей.
Любой участник может оформить статью: добавить иллюстрации, викифицировать, заполнить шаблоны и добавить категории.
Любой редактор может снять этот шаблон после оформления и проверки.

Комментарии

Викиновости и Wikimedia Foundation не несут ответственности за любые материалы и точки зрения, находящиеся на странице и в разделе комментариев.