Академик Игорь Бычков предлагает грид-систему для работы на суперкомпьютерах
13 декабря 2014 года
25 ноября 2014 года академик Игорь Вячеславович Бычков выступил на Национальном Суперкомпьютерном Форуме в Переславле-Залесском с докладом о «концепции многозадачной грид-системы с гибким управлением свободными вычислительными ресурсами суперкомпьютеров».
Академик рассказал о том, как решения открытой платформы распределённых вычислений BOINC используются на суперкомпьютерах в Институте динамики систем и теории управления СО РАН.
Игорь Бычков напомнил, что суперкомпьютеры используются во множестве областей: для проектирования самолётов, в медицине и фармацевтике, в геологической разведке — везде, где надо точно моделировать сложные ситуации и где приходится обсчитывать большие массивы данных. При этом мощные вычислительные машины потребляют немало энергии, львиная доля которой уходит на охлаждение, то есть рассеивается в воздух. Поэтому так важна эффективность суперкомпьютеров, их своевременная и полная загрузка.
По мнению академика, в отрасли существуют две взаимосвязанные проблемы. С одной стороны, возникают столь ресурсоёмкие задачи, что их нельзя просчитать на регулярных суперкомпьютерах, потому что в очереди задач не удаётся получить достаточного для их решения времени. С другой стороны, вычислительные кластеры остаются не загруженными на 100 процентов. Между задачами остаётся резервное место, когда процессоры простаивают и кластер загружен лишь частично. При этом расходуется энергия, ведь система продолжает работать.
Всё это очень близко к концепции добровольных вычислений, которые происходят на компьютерах пользователей во время простоя, занимая только свободные ресурсы. Именно так работает известная программа BOINC:
|
В своём пленарном докладе академик Бычков объяснил, как участник добровольных вычислений загружает клиентскую программу и запускает её, как запрашивает данные с сервера и отправляет результаты. При этом эффективно решаются задачи, которые можно разбить на независимые участки расчёта. По его словам, на платформе BOINC по всему миру сегодня идёт почти 60 активных проектов, в которых занято почти 700 тысяч персональных компьютеров.
Сотрудники Института динамики систем и теории управления увидели, что этот подход можно перенести на вычислительные кластеры, которые загружены не полностью. Здесь можно использовать аналог BOINC-менеджера, который использует свободные ресурсы кластера.
Однако есть и ключевое отличие. На домашнем компьютере пользователь может запустить любую программу в любой момент, потому что он полный хозяин компьютера. На суперкомпьютерном кластере пользователь добавляет свою MPI-программу в очередь задач и делит аппаратуру с другими пользователями. Поэтому надо следить за тем, чтобы менеджер свободных ресурсов уступал место в очереди всем другим задачам, чтобы он использовал только время простоя.
Именно такой менеджер ресурсов создан в ИДСТУ. Это программа CluBORun — что означает «Cluster for BOINC Run», то есть «кластерный компьютер для запуска BOINC». Разработка началась в 2013 году, реальные испытания прошли в 2013—2014 годах в проекте SAT@home.
Аналогичные разработки делают и за рубежом. Из современных аналогов можно назвать 3G Bridge, однако этой программе нужны администраторские права, то есть она сильнее вмешивается в управление суперкомпьютером. К тому же она не может гибко захватывать и отпускать ресурсы, следя за поступлением других задач. Другой аналог — BNB-Grid умеет создавать расчётные сети на основе вычислительных кластеров и работает через обычное управление очередями заданий с правами обычного пользователя. Однако эта программа не умеет следить за очередью, занимать свободные ресурсы и отдавать их в пользу новых заданий, и совсем не работает с BOINC.
В отечественном подходе для CluBORun достаточно прав пользователя: программа мирно стоит в очереди задач и ждёт своего часа, не задерживая других расчётов.
Программа CluBORun позволяет запускать BOINC-менеджер и управлять им на суперкомпьютере. Работая на одном процессорном ядре, BOINC-менеджер в свою очередь раздаёт подзадачи на остальные свободные ядра. Тем временем CluBORun анализирует очередь кластера, и когда она заполнена — то прерывает BOINC-задачи, уступая процессоры другим пользователям.
CluBORun запускалась на кластере Blackford в Институте динамики систем (144 ядра) и на кластере МВС-100k (10572 ядра), поддерживая расчёты SAT@home и OPTIMA@home. В результате были найдены 17 новых пар ортогональных диагональных латинских квадратов порядка 10, решены три ослабленные задачи криптоанализа для генератора ключевого потока Bivium. Сама программа развивается так, чтобы работать на разных суперкомпьютерах с разными планировщиками задач. Сейчас она поддерживает три планировщика (Cleo, СУППЗ, SLURM), идёт работа над четвёртым (TORQUE).
По словам академика Игоря Бычкова —
Система может быть использована для решения важных практических задач, требующих значительных вычислительных ресурсов. |
Теперь привычный BOINC-сервер может строить вычислительную сеть на служебных кластерах, пользуясь их свободными ресурсами. Со временем это позволит создать многозадачную грид-систему из географически разнесённых суперкомпьютеров, уменьшая холостой пробег этих машин.
На следующий день, 26 ноября в Хрустальном зале ИПС РАН работала секция «Гриды из рабочих станций и комбинированные гриды». Здесь обсуждали любительские вычисления на ПК и суперкомпьютерах. Прозвучали 10 докладов — о результатах академических проектов Netmax@home и SAT@home, о предпочтениях участников грид-вычислений и о том, как привлекать новых участников.
Оказалось, что любительские вычисления помогают и академическим и учебным организациям. За гридами следят Институт проблем передачи информации имени А. А. Харкевича РАН, Новосибирский государственный технический университет, Институт прикладных математических исследований КарНЦ РАН.
Во время работы этой секции двум энтузиастам российского сообщества добровольцев — Александру Львовичу Андрееву (Пенза) и Максиму Олеговичу Манзюку (Волгоград) — были вручены дипломы «За достижения в области развития и популяризации добровольных распределенных вычислений». Дипломы подписал секретарь совета IDGF Роберт Ловас (Robert Lovas, International Desktop Grid Federation) и вручал Михаил Анатольевич Посыпкин (сотрудник ИППИ, председатель российского отделения IDGF). Максим Манзюк и Олег Заикин разрабатывали саму программу CluBORun в Институте динамики систем и теории управления, а Александр Андреев поддерживает крупный российский сайт BOINC.RU, руководит расчётной командой «Russia Team» и широко популяризирует добровольные вычисления.
Участники секции живо реагировали на выступление академика Бычкова. По словам Максима Манзюка, в этом докладе была поставлена более широкая задача:
Сложно придумать вариант лучше, чем получилось, когда именно Игорь Вячеславович приехал и сделал именно такой доклад. Он представил тематику в другом, интересном разрезе — не как инструментальное средство, а как идею об управлении ресурсами. Вроде всё просто и понятно, но иногда, чтобы это увидеть, надо смотреть на ситуацию глазами академика. |
Обсуждая работу секции, Александр Андреев сказал нашему корреспонденту:
Распределённые грид-вычисления в России проделали серьёзный путь от увлечения энтузиастов, от экранных заставок на домашних компьютерах — до работы в академические исследованиях. Термины «BOINC» и «грид-системы из персональных компьютеров» уже не пугают академиков РАН. И значит, у нас есть перспективы: грид-вычисления на персональных компьютерах идут к системному использованию в научной среде. |
Мы продолжим освещать выступления отдельных участников НСКФ и достижения этой промышленности.
Предыдущая новость: Национальный Суперкомпьютерный Форум учредил отраслевую премию |
Ссылки
править- Национальный Суперкомпьютерный Форум. Тезисы всех докладов.
- Концепция многозадачной грид-системы с гибким распределением свободных вычислительных ресурсов сумеркомпьютеров (архивировано: 1 (Архивная копия от 10 марта 2016 на Wayback Machine), 2).
- Видеозапись выступления О. С. Заикина на конференции BOINC:FAST’13, описание проблемы и поиск решения (2013 год).
- Видеозапись выступления И. В. Бычкова на пленарном заседании НСКФ-2014, описание готового решения (2014 год).
- Форум участников секции на сайте Boinc.ru. (Архивная копия от 12 августа 2016 на Wayback Machine)
- CluBORun на GitHub.
Источники
правитьКомментарии
Если вы хотите сообщить о проблеме в статье (например, фактическая ошибка и т. д.), пожалуйста, используйте обычную страницу обсуждения.
Комментарии на этой странице могут не соответствовать политике нейтральной точки зрения, однако, пожалуйста, придерживайтесь темы и попытайтесь избежать брани, оскорбительных или подстрекательных комментариев. Попробуйте написать такие комментарии, которые заставят задуматься, будут проницательными или спорными. Цивилизованная дискуссия и вежливый спор делают страницу комментариев дружелюбным местом. Пожалуйста, подумайте об этом.
Несколько советов по оформлению реплик:
- Новые темы начинайте, пожалуйста, снизу.
- Используйте символ звёздочки «*» в начале строки для начала новой темы. Далее пишите свой текст.
- Для ответа в начале строки укажите на одну звёздочку больше, чем в предыдущей реплике.
- Пожалуйста, подписывайте все свои сообщения, используя четыре тильды (~~~~). При предварительном просмотре и сохранении они будут автоматически заменены на ваше имя и дату.
Обращаем ваше внимание, что комментарии не предназначены для размещения ссылок на внешние ресурсы не по теме статьи, которые могут быть удалены или скрыты любым участником. Тем не менее, на странице комментариев вы можете сообщить о статьях в СМИ, которые ссылаются на эту заметку, а также о её обсуждении на сторонних ресурсах.
А почему так много красных категорий? --Ochilov (обс) 07:32, 23 декабря 2014 (UTC)
- Не хватает рук, чтобы создавать категории. --PereslavlFoto (обсуждение) 23:50, 15 декабря 2016 (UTC)