Прошла конференция «Корпусная линвистика ‒ 2017» в Санкт-Петербурге

6 июля 2017 года

С 27 по 30 июня 2017 года в Санкт-Петербурге прошла международная конференция «Корпусная линвистика ‒ 2017». В ходе форума обсуждали теоретические и прикладные вопросы корпусной лингвистики.

Организаторами конференции стали Кафедра математической лингвистики Филологического факультета Санкт-Петербургского государственного университета (СПбГУ) совместно с Институтом лингвистических исследований (ИЛИ РАН) и кафедрой образовательных технологий в филологии Российского государственного педагогического университета им. А. И. Герцена (РГПУ).

Первый день, 27 июня

править

Школы-семинары конференции открыл В. В. Бочаров. Он рассказал о наборах данных в Открытом корпусе. Разработанные ограничения на граммемы проверяются в автоматическом режиме, указывают авторам на возможные ошибки, создавая ощущение надёжности и корректности данных. Этим ограничения напоминают юнит-тестирование, помогающее искать ошибки в корпусе исходных текстов компьютерной программы.

 
Поучительное изречение для студентов филологического факультета в СПбГУ, в стенах которого прошла конференция

Второй день, 28 июня

править

Т. Ю. Шерстинова (СПбГУ) рассказала о звуковом корпусе «Один речевой день (Архивная копия от 5 апреля 2017 на Wayback Machine)» (ОРД). Большая звуковая коллекция объёмом в 1250 часов записывалась в Санкт-Петербурге в течение последних десяти лет. Для 17 % корпуса уже получена текстовая расшифровка. Предложены подходы к решению задачи тематического аннотирования (см. Тематическое моделирование). Приветствуется помощь добровольцев в пополнении корпуса ОРД. Для этого нужно заключить договор с авторами корпуса, затем в течение дня носить с собой диктофон, записывая в естественных условиях все возникающие диалоги.

 
Татьяна Юрьевна Шерстинова (СПбГУ), корпус «Один речевой день»

Анализ побудительных (императивных) реплик на основе ОРД представлен в докладе О. В. Блиновой (СПбГУ).

С. О. Савчук рассказала об изучении публичной речи на основе интереснейшего мультимедийного корпуса МУРКО, входящего в состав НКРЯ. Авторы корпуса МУРКО совершенно справедливо не делают различия между «общедоступными источниками, размещёнными в сети интернет»[1] и материалами с открытой лицензией. Поскольку в противном случае, если пользоваться только последними, то в корпус можно будет включать лишь фильмы до 1945 года.

 
Светлана Олеговна Савчук (Институт русского языка) и Ольга Владимировна Блинова (СПбГУ)

Для моделирования восприятия естественной звучащей речи разработан Корпус русского литературного языка. Корпус снабжён полной фонетической транскрипцией. Е. И. Риехакайнен (СПбГУ) является одним из разработчиков Корпуса. С помощью корпусного исследования Елена Игоревна подтвердила гипотезу, что в начальных фрагментах речевой цепи редукция встречается реже.

 
Елена Игоревна Риехакайнен (СПбГУ), Корпус русского литературного языка

Видеозаписи эмоциональных диалогов есть в Russian Emotional Corpus (REC) (Архивная копия от 15 июля 2017 на Wayback Machine). Ручная разметка в программе ELAN фрагментов видео этого корпуса позволила получить взаимосвязанные группы жестов и мимики, соответствующие какой-либо коммуникативной реакции. Зинина А. А. (Курчатовский институт) рассказала о разработанном роботе «Ф-2» и показала его в действии. Робот распознаёт речь, синтезирует речевой ответ и дополняет его подходящей к этому контексту серией жестов и мимики.

 
Анна Александровна Зинина (Курчатовский институт) рассказывает о роботе, умеющем дополнять речь жестами, указывающими на его эмоциональное состояние

П. М. Эйсмонт рассказала о корпусе «Кондуит». Корпус содержит речь детей от 2 до 8 лет.

 
Полина Михайловна Эйсмонт (СПб ГУАП) рассказывает о корпусе «Кондуит»

Четвёртый день, 30 июня

править

Эверита Андронова рассказала о построении латышского словаря с помощью программы TLex 2013. Латышские коллеги разработали корпус SENIE (Архивная копия от 27 июня 2017 на Wayback Machine). По-видимому, интерфейс корпуса предлагается только на латышском языке.

 
Эверита Андронова (Институт математики и информатики Латвийского университета), исторический латышский словарь

Крижановский А. А. представил Открытый корпус вепсского и карельского языков, являющийся результатом работы двух институтов Петрозаводска: ИПМИ КарНЦ РАН и ИЯЛИ КарНЦ РАН.

 
Илья Сергеевич Николаев (СПбГУ)

Милена Хнаткова и Гана Скоумалова разрабатывают типологию многословных выражений (MWE) в чешском языке и создаёт базу данных с этими выражениями. В докладе детально описана структура фразы в базе данных. Особенно интересным доклад сделало обилие примеров фразеологизмов, поговорок на чешском с переводом на английский. Было увлекательно подбирать в ходе рассказа русские эквиваленты.

 
Гана Скоумалова (Карлов университет)

Елена Каллас посвятила свою работу созданию эстонского словаря словосочетаний на основе корпуса с помощью системы Sketch Engine.

 
Елена Каллас (Институт эстонского языка)

Москвина А. Д. решала задачу извлечения ключевых слов и словосочетаний без словаря, на основе алгоритма RAKE (англ. Rapid automatic keyword extraction). Реализация RAKE для английского языка была адаптирована к русскому языку. Разбор текстов на русском языке предваряет морфологический анализ. Именно здесь можно «провести» границы между словами, которые не могут встречаться внутри одного словосочетания. Были использованы:

  1. морфоанализатор pymorphy2, работающий на данных OpenCorpora (см. выше первый день);
  2. грамматический синтаксический парсер NLTK4RUSSIAN (Архивная копия от 29 июня 2017 на Wayback Machine).
 
Анна Денисовна Москвина (СПбГУ)


См. также

править

Ссылки

править

Примечания

править
  1. Сборник конференции «Корпусная линвистика ‒ 2017», с. 316

Источник

править
 
Оригинальный репортаж Викиновостей

Эта статья опубликована в Викиновостях и содержит эксклюзивный репортаж и исследования, написанные одним из участников нашего проекта специально для Викиновостей.

Если автор репортажа не указал свои источники, источником информации является он сам. Вы можете узнать, кто создал эту статью, из истории статьи: тот, кто её внёс эту правку, и является автором статьи. Если у вас есть замечания или предложения, первым делом напишите о них на странице обсуждения. Если у автора имелись в распоряжении не все факты, дополните статью известной вам информацией. Если с течением времени ситуация изменилась, напишите о новых фактах в новой статье. Если у вас есть вопросы к участникам русских Викиновостей, напишите на форум.

Комментарии

Викиновости и Wikimedia Foundation не несут ответственности за любые материалы и точки зрения, находящиеся на странице и в разделе комментариев.
  • Замечательная конференция, интересные доклады. Узнал для себя много нового. Спасибо организаторам! -- Andrew Krizhanovsky (обсуждение) 05:48, 2 июля 2017 (UTC)