Комментарии:Русские игры 2: Викиновости обошли Викисловарь

Викиновости и Wikimedia Foundation не несут ответственности за любые материалы и точки зрения, находящиеся на странице и в разделе комментариев.
  • Очень рад, что Викиновости растут по двум причинам: архивация и сохранение онлайн-источников, которые легко могут сгинуть во времени, и для вычислительной лингвистики нужен большой объём данных, чем больше, тем лучше. --Andrew Krizhanovsky (обсуждение) 14:55, 19 июля 2021 (UTC)[ответить]
    • Андрей, у меня вчера идея на этот счёт возникла посчитать и написать статью про первую тысячу или несколько тысяч слов частотного словаря, которых нет в Русских Викиновостях. Что-то такого Самые популярные слова в заголовках Русских Викиновостей на октябрь 2020 года, только как бы наоборот — о тех, которых нет. Просто поиском последовательно запрашивать есть или нет, и если нет, то в список добавлять с местом и относительной частотой в словаре. Для Викиновостей полезно тем, что они тут появятся. Да и вообще интересно понять почему их нет. Интересно такое сделать? Мне самому не разорваться:). --cаша (krassotkin) 17:03, 19 июля 2021 (UTC)[ответить]
  • Саша, тут по текстам Викиновостей (и Википедии) можно много интересных лингвистических задач придумать:
  1. Построить список частотных лемм, разбитых по темам (можно использовать категории, но не обязательно).
  2. Построить список частотных лемм Википедии, которых нет в Викиновостях.
  3. Найти слова, набирающие и теряющие популярность на заданный временной интервал по всем Викиновостям и по какой-либо теме (категории).
  4. Практическая задача: автоматическая расстановка категорий в статьях, загруженных ботами (не представляю, как это делать, но это важно для проекта).