Академик Игорь Бычков предлагает грид-систему для работы на суперкомпьютерах

13 декабря 2014 года

Игорь Бычков: «Есть постоянная недозагруженность большинства вычислительных кластеров»
Фото: PereslavlFoto


25 ноября 2014 года академик Игорь Вячеславович Бычков выступил на Национальном Суперкомпьютерном Форуме в Переславле-Залесском с докладом о «концепции многозадачной грид-системы с гибким управлением свободными вычислительными ресурсами суперкомпьютеров». Академик рассказал о том, как решения открытой платформы распределённых вычислений BOINC используются на суперкомпьютерах в Институте динамики систем и теории управления СО РАН.

BOINC системы будут работать на суперкомпьютерах сперва в России, а затем и по всему миру
Академик Игорь Бычков (ИДСТУ) предлагает пристально посмотреть на грид-системы на базе BOINC
Фото: PereslavlFoto

Игорь Бычков напомнил, что суперкомпьютеры используются во множестве областей: для проектирования самолётов, в медицине и фармацевтике, в геологической разведке — везде, где надо точно моделировать сложные ситуации и где приходится обсчитывать большие массивы данных. При этом мощные вычислительные машины потребляют немало энергии, львиная доля которой уходит на охлаждение, то есть рассеивается в воздух. Поэтому так важна эффективность суперкомпьютеров, их своевременная и полная загрузка.

По мнению академика, в отрасли существуют две взаимосвязанные проблемы. С одной стороны, возникают столь ресурсоёмкие задачи, что их нельзя просчитать на регулярных суперкомпьютерах, потому что в очереди задач не удаётся получить достаточного для их решения времени. С другой стороны, вычислительные кластеры остаются не загруженными на 100 процентов. Между задачами остаётся резервное место, когда процессоры простаивают и кластер загружен лишь частично. При этом расходуется энергия, ведь система продолжает работать.

Всё это очень близко к концепции добровольных вычислений, которые происходят на компьютерах пользователей во время простоя, занимая только свободные ресурсы. Именно так работает известная программа BOINC:

  • использует только свободные ресурсы, работая с наименьшим приоритетом,
  • делает это как обычный пользователь, не требуя дополнительных прав.

В своём пленарном докладе академик Бычков объяснил, как участник добровольных вычислений загружает клиентскую программу и запускает её, как запрашивает данные с сервера и отправляет результаты. При этом эффективно решаются задачи, которые можно разбить на независимые участки расчёта. По его словам, на платформе BOINC по всему миру сегодня идёт почти 60 активных проектов, в которых занято почти 700 тысяч персональных компьютеров.

Сотрудники Института динамики систем и теории управления увидели, что этот подход можно перенести на вычислительные кластеры, которые загружены не полностью. Здесь можно использовать аналог BOINC-менеджера, который использует свободные ресурсы кластера.

Однако есть и ключевое отличие. На домашнем компьютере пользователь может запустить любую программу в любой момент, потому что он полный хозяин компьютера. На суперкомпьютерном кластере пользователь добавляет свою MPI-программу в очередь задач и делит аппаратуру с другими пользователями. Поэтому надо следить за тем, чтобы менеджер свободных ресурсов уступал место в очереди всем другим задачам, чтобы он использовал только время простоя.

Именно такой менеджер ресурсов создан в ИДСТУ. Это программа CluBORun — что означает «Cluster for BOINC Run», то есть «кластерный компьютер для запуска BOINC». Разработка началась в 2013 году, реальные испытания прошли в 2013—2014 годах в проекте SAT@home.

Аналогичные разработки делают и за рубежом. Из современных аналогов можно назвать 3G Bridge, однако этой программе нужны администраторские права, то есть она сильнее вмешивается в управление суперкомпьютером. К тому же она не может гибко захватывать и отпускать ресурсы, следя за поступлением других задач. Другой аналог — BNB-Grid умеет создавать расчётные сети на основе вычислительных кластеров и работает через обычное управление очередями заданий с правами обычного пользователя. Однако эта программа не умеет следить за очередью, занимать свободные ресурсы и отдавать их в пользу новых заданий, и совсем не работает с BOINC.

В отечественном подходе для CluBORun достаточно прав пользователя: программа мирно стоит в очереди задач и ждёт своего часа, не задерживая других расчётов.

Программа CluBORun позволяет запускать BOINC-менеджер и управлять им на суперкомпьютере. Работая на одном процессорном ядре, BOINC-менеджер в свою очередь раздаёт подзадачи на остальные свободные ядра. Тем временем CluBORun анализирует очередь кластера, и когда она заполнена — то прерывает BOINC-задачи, уступая процессоры другим пользователям.

CluBORun запускалась на кластере Blackford в Институте динамики систем (144 ядра) и на кластере МВС-100k (10572 ядра), поддерживая расчёты SAT@home и OPTIMA@home. В результате были найдены 17 новых пар ортогональных диагональных латинских квадратов порядка 10, решены три ослабленные задачи криптоанализа для генератора ключевого потока Bivium. Сама программа развивается так, чтобы работать на разных суперкомпьютерах с разными планировщиками задач. Сейчас она поддерживает три планировщика (Cleo, СУППЗ, SLURM), идёт работа над четвёртым (TORQUE).

По словам академика Игоря Бычкова —

«Система может быть использована для решения важных практических задач, требующих значительных вычислительных ресурсов.»

Теперь привычный BOINC-сервер может строить вычислительную сеть на служебных кластерах, пользуясь их свободными ресурсами. Со временем это позволит создать многозадачную грид-систему из географически разнесённых суперкомпьютеров, уменьшая холостой пробег этих машин.

Участники секции «Гриды из рабочих станций и комбинированные гриды»
Фото: PereslavlFoto

На следующий день, 26 ноября в Хрустальном зале ИПС РАН работала секция «Гриды из рабочих станций и комбинированные гриды». Здесь обсуждали любительские вычисления на ПК и суперкомпьютерах. Прозвучали 10 докладов — о результатах академических проектов Netmax@home и SAT@home, о предпочтениях участников грид-вычислений и о том, как привлекать новых участников.

Оказалось, что любительские вычисления помогают и академическим и учебным организациям. За гридами следят Институт проблем передачи информации имени А. А. Харкевича РАН, Новосибирский государственный технический университет, Институт прикладных математических исследований КарНЦ РАН.

Во время работы этой секции двум энтузиастам российского сообщества добровольцев — Александру Львовичу Андрееву (Пенза) и Максиму Олеговичу Манзюку (Волгоград) — были вручены дипломы «За достижения в области развития и популяризации добровольных распределенных вычислений». Дипломы подписал секретарь совета IDGF Роберт Ловас (Robert Lovas, International Desktop Grid Federation) и вручал Михаил Анатольевич Посыпкин (сотрудник ИППИ, председатель российского отделения IDGF). Максим Манзюк и Олег Заикин разрабатывали саму программу CluBORun в Институте динамики систем и теории управления, а Александр Андреев поддерживает крупный российский сайт BOINC.RU, руководит расчётной командой «Russia Team» и широко популяризирует добровольные вычисления.

Академик Игорь Бычков видит новую перспективу для грид-вычислений
Фото: PereslavlFoto

Участники секции живо реагировали на выступление академика Бычкова. По словам Максима Манзюка, в этом докладе была поставлена более широкая задача:

«Сложно придумать вариант лучше, чем получилось, когда именно Игорь Вячеславович приехал и сделал именно такой доклад. Он представил тематику в другом, интересном разрезе — не как инструментальное средство, а как идею об управлении ресурсами. Вроде всё просто и понятно, но иногда, чтобы это увидеть, надо смотреть на ситуацию глазами академика.»

Обсуждая работу секции, Александр Андреев сказал нашему корреспонденту:

«Распределённые грид-вычисления в России проделали серьёзный путь от увлечения энтузиастов, от экранных заставок на домашних компьютерах — до работы в академические исследованиях. Термины «BOINC» и «грид-системы из персональных компьютеров» уже не пугают академиков РАН. И значит, у нас есть перспективы: грид-вычисления на персональных компьютерах идут к системному использованию в научной среде.»

Мы продолжим освещать выступления отдельных участников НСКФ и достижения этой промышленности.


Ссылки править

Источники править

 
Оригинальный репортаж Викиновостей

Эта статья опубликована в Викиновостях и содержит эксклюзивный репортаж и исследования, написанные одним из участников нашего проекта специально для Викиновостей.

Если автор репортажа не указал свои источники, источником информации является он сам. Вы можете узнать, кто создал эту статью, из истории статьи: тот, кто её внёс эту правку, и является автором статьи. Если у вас есть замечания или предложения, первым делом напишите о них на странице обсуждения. Если у автора имелись в распоряжении не все факты, дополните статью известной вам информацией. Если с течением времени ситуация изменилась, напишите о новых фактах в новой статье. Если у вас есть вопросы к участникам русских Викиновостей, напишите на форум.

Комментарии

Викиновости и Wikimedia Foundation не несут ответственности за любые материалы и точки зрения, находящиеся на странице и в разделе комментариев.

А почему так много красных категорий? --Ochilov (обс) 07:32, 23 декабря 2014 (UTC)