Компания Microsoft открыла код распределённого инструментария машинного обучения DMTK

13 ноября 2015 года

Компания Microsoft объявила о переводе в разряд открытых проектов инструментария DMTK (Distributed Machine Learning Toolkit), предназначенного для создания распределённых систем машинного обучения. Система может применяться для решения таких задач, как распознавание естественного языка, классификация документов, компьютерное зрение, распознавание речи и определение смысла текстовой информации.

В состав инструментария входят:

  • Масштабируемый фреймворк машинного обучения, состоящий из хранилища Parameter Server, поддерживающего хранение гибридных моделей данных, и клиентского SDK, который можно применять для планирования работ на стороне клиента, организации обучения моделей и поддержания локального кэша моделей, синхронизированного к моделями на Parameter Server.
  • Cистема тематического моделирования LightLDA;
  • Реализация распределённых алгоритмов векторного представления слов (Word2vec и multi-sense), позволяющих применять методы обработки информации на естественном языке.

Разработчикам предоставляется достаточно простой API, предоставляющий средства для обработки данных, построения моделей и организации обучения. Обучение производится с распараллеливанием операций по кластеру из группы серверов с использованием достаточно эффективных алгоритмов. Например, при использовании DMTK кластера из 24 серверов достаточно для классификации документов по тематической модели, охватывающей миллион тематик и словарь в 20 млн терминов, или для решения задач обработки естественного языка при словаре в 20 млн слов и 1000 тематических векторов, или для обработки коллекции web-документов из 200 миллиардов токенов. Отмечается, что для решения аналогичных задач ранее требовались кластеры из тысяч машин.

Исходные тексты DMTK написаны на языке С++ и опубликованы под лицензией MIT. DMTK изначально поддерживает работу в кластерах на базе Linux, используя MPI-интерфейс MPICH (для Windows используется MS-MPI). Готовые бинарные сборки подготовлены для Windows и Linux (Ubuntu). В качестве шины обмена данными применяется ZeroMQ.

Источники править


 
 
Creative Commons
Эта статья содержит материалы из статьи «Компания Microsoft открыла код распределённого инструментария машинного обучения DMTK», опубликованной OpenNET и распространяющейся на условиях лицензии Creative Commons Attribution (CC BY) — указание автора, источник и лицензию.
 
Эта статья загружена автоматически ботом NewsBots в архив и ещё не проверялась редакторами Викиновостей.
Любой участник может оформить статью: добавить иллюстрации, викифицировать, заполнить шаблоны и добавить категории.
Любой редактор может снять этот шаблон после оформления и проверки.

Комментарии

Викиновости и Wikimedia Foundation не несут ответственности за любые материалы и точки зрения, находящиеся на странице и в разделе комментариев.