Прошла конференция «Корпусная линвистика ‒ 2017» в Санкт-Петербурге
6 июля 2017 года
С 27 по 30 июня 2017 года в Санкт-Петербурге прошла международная конференция «Корпусная линвистика ‒ 2017». В ходе форума обсуждали теоретические и прикладные вопросы корпусной лингвистики.
Организаторами конференции стали Кафедра математической лингвистики Филологического факультета Санкт-Петербургского государственного университета (СПбГУ) совместно с Институтом лингвистических исследований (ИЛИ РАН) и кафедрой образовательных технологий в филологии Российского государственного педагогического университета им. А. И. Герцена (РГПУ).
Первый день, 27 июня
правитьШколы-семинары конференции открыл В. В. Бочаров. Он рассказал о наборах данных в Открытом корпусе. Разработанные ограничения на граммемы проверяются в автоматическом режиме, указывают авторам на возможные ошибки, создавая ощущение надёжности и корректности данных. Этим ограничения напоминают юнит-тестирование, помогающее искать ошибки в корпусе исходных текстов компьютерной программы.
Второй день, 28 июня
правитьТ. Ю. Шерстинова (СПбГУ) рассказала о звуковом корпусе «Один речевой день (Архивная копия от 5 апреля 2017 на Wayback Machine)» (ОРД). Большая звуковая коллекция объёмом в 1250 часов записывалась в Санкт-Петербурге в течение последних десяти лет. Для 17 % корпуса уже получена текстовая расшифровка. Предложены подходы к решению задачи тематического аннотирования (см. Тематическое моделирование). Приветствуется помощь добровольцев в пополнении корпуса ОРД. Для этого нужно заключить договор с авторами корпуса, затем в течение дня носить с собой диктофон, записывая в естественных условиях все возникающие диалоги.
Анализ побудительных (императивных) реплик на основе ОРД представлен в докладе О. В. Блиновой (СПбГУ).
С. О. Савчук рассказала об изучении публичной речи на основе интереснейшего мультимедийного корпуса МУРКО, входящего в состав НКРЯ. Авторы корпуса МУРКО совершенно справедливо не делают различия между «общедоступными источниками, размещёнными в сети интернет»[1] и материалами с открытой лицензией. Поскольку в противном случае, если пользоваться только последними, то в корпус можно будет включать лишь фильмы до 1945 года.
Для моделирования восприятия естественной звучащей речи разработан Корпус русского литературного языка. Корпус снабжён полной фонетической транскрипцией. Е. И. Риехакайнен (СПбГУ) является одним из разработчиков Корпуса. С помощью корпусного исследования Елена Игоревна подтвердила гипотезу, что в начальных фрагментах речевой цепи редукция встречается реже.
Видеозаписи эмоциональных диалогов есть в Russian Emotional Corpus (REC) (Архивная копия от 15 июля 2017 на Wayback Machine). Ручная разметка в программе ELAN фрагментов видео этого корпуса позволила получить взаимосвязанные группы жестов и мимики, соответствующие какой-либо коммуникативной реакции. Зинина А. А. (Курчатовский институт) рассказала о разработанном роботе «Ф-2» и показала его в действии. Робот распознаёт речь, синтезирует речевой ответ и дополняет его подходящей к этому контексту серией жестов и мимики.
П. М. Эйсмонт рассказала о корпусе «Кондуит». Корпус содержит речь детей от 2 до 8 лет.
Четвёртый день, 30 июня
правитьЭверита Андронова рассказала о построении латышского словаря с помощью программы TLex 2013. Латышские коллеги разработали корпус SENIE (Архивная копия от 27 июня 2017 на Wayback Machine). По-видимому, интерфейс корпуса предлагается только на латышском языке.
Крижановский А. А. представил Открытый корпус вепсского и карельского языков, являющийся результатом работы двух институтов Петрозаводска: ИПМИ КарНЦ РАН и ИЯЛИ КарНЦ РАН.
Милена Хнаткова и Гана Скоумалова разрабатывают типологию многословных выражений (MWE) в чешском языке и создаёт базу данных с этими выражениями. В докладе детально описана структура фразы в базе данных. Особенно интересным доклад сделало обилие примеров фразеологизмов, поговорок на чешском с переводом на английский. Было увлекательно подбирать в ходе рассказа русские эквиваленты.
Елена Каллас посвятила свою работу созданию эстонского словаря словосочетаний на основе корпуса с помощью системы Sketch Engine.
Москвина А. Д. решала задачу извлечения ключевых слов и словосочетаний без словаря, на основе алгоритма RAKE (англ. Rapid automatic keyword extraction). Реализация RAKE для английского языка была адаптирована к русскому языку. Разбор текстов на русском языке предваряет морфологический анализ. Именно здесь можно «провести» границы между словами, которые не могут встречаться внутри одного словосочетания. Были использованы:
- морфоанализатор pymorphy2, работающий на данных OpenCorpora (см. выше первый день);
- грамматический синтаксический парсер NLTK4RUSSIAN (Архивная копия от 29 июня 2017 на Wayback Machine).
Продолжение: Прошла конференция «Корпусная линвистика ‒ 2019» в Санкт-Петербурге |
См. также
правитьСсылки
править- «Международная научная конференция «Корпусная лингвистика - 2017»». СПбГУ, 13 ноября 2017 года. (архив) (Архивная копия от 1 июля 2017 на Wayback Machine)
Примечания
править- ↑ Сборник конференции «Корпусная линвистика ‒ 2017», с. 316
Источник
правитьКомментарии
Если вы хотите сообщить о проблеме в статье (например, фактическая ошибка и т. д.), пожалуйста, используйте обычную страницу обсуждения.
Комментарии на этой странице могут не соответствовать политике нейтральной точки зрения, однако, пожалуйста, придерживайтесь темы и попытайтесь избежать брани, оскорбительных или подстрекательных комментариев. Попробуйте написать такие комментарии, которые заставят задуматься, будут проницательными или спорными. Цивилизованная дискуссия и вежливый спор делают страницу комментариев дружелюбным местом. Пожалуйста, подумайте об этом.
Несколько советов по оформлению реплик:
- Новые темы начинайте, пожалуйста, снизу.
- Используйте символ звёздочки «*» в начале строки для начала новой темы. Далее пишите свой текст.
- Для ответа в начале строки укажите на одну звёздочку больше, чем в предыдущей реплике.
- Пожалуйста, подписывайте все свои сообщения, используя четыре тильды (~~~~). При предварительном просмотре и сохранении они будут автоматически заменены на ваше имя и дату.
Обращаем ваше внимание, что комментарии не предназначены для размещения ссылок на внешние ресурсы не по теме статьи, которые могут быть удалены или скрыты любым участником. Тем не менее, на странице комментариев вы можете сообщить о статьях в СМИ, которые ссылаются на эту заметку, а также о её обсуждении на сторонних ресурсах.
- Замечательная конференция, интересные доклады. Узнал для себя много нового. Спасибо организаторам! -- Andrew Krizhanovsky (обсуждение) 05:48, 2 июля 2017 (UTC)