DMTK в открытом доступе

19 ноября 2015 года

Логотип Microsoft Research Asia

Исследователи из лаборатории Microsoft Asia Research Lab выложили в открытый доступ на GitHub программу для создания распределённых систем машинного обучения Microsoft Distributed Machine Learning Toolkit (DMTK), с помощью которой несколько компьютеров могут параллельно решать целый комплекс проблем, традиционно относимых к области искусственного интеллекта.

Текущая версия DMTK включает в себя фреймворк, который эффективно выполняет процесс машинного обучения на больших данных за счет гибридной структуры данных, для хранения больших моделей данных, и за счёт автоматической конвейеризации.

Гибридная структура данных — это модель хранения, которая использует разделение данных на высокочастотные и низкочастотные параметры (например частота обращения пользователя к данным или же обращение к самой системы, и тому подобных вариантов), для достижения баланса между объёмом памяти и скоростью доступа.

DMTK имеет две модели алгоритмов: LightLDA — система тематического моделирования и Word2vec — реализация распределенных алгоритмов векторного представления слов.

Инструментарий предлагает сопутствующий API для облегчения работы исследователям и разработчикам.

DMTK поможет в реализации таких задач, как распознавание естественного языка, классификация документов, компьютерное зрение, распознавание речи и определение смысла текстовой информации и т. д.

Ссылки

править

Источники

править


Статья «DMTK в открытом доступе» создана участником marina kope в рамках заданий по созданию и улучшению статей в проектах Викимедия на научную тему для получения допуска к зачёту/экзамену по предмету «Интернет-математика» в ПетрГУ (преподаватель: Andrew Krizhanovsky).


Комментарии

Викиновости и Wikimedia Foundation не несут ответственности за любые материалы и точки зрения, находящиеся на странице и в разделе комментариев.