Opendedup — файловая система с автоматическим объединением дубликатов данных
28 марта 2010 года
В рамках проекта Opendedup ведется работа по созданию новой распределенной файловой системы SDFS, специально оптимизированной для использования в качестве хранилища для виртуальных окружений, подобных XEN, KVM или VMware. Главная особенность новой системы заключается в поддержке автоматического объединения дубликатов - для одинаковых блоков данных сохраняется только одна копия, что значительно повышает вместимость файловой системы при хранении похожих по базовой начинке виртуальных окружений.
Максимальный размер общей файловой системы на базе SDFS ограничен 8 Петабайтами, максимальный размер одного файла - 250 Гб, предусмотрена возможность подключения в единый пул до 256 разных хранилищ, по 32 Терабайта в каждом. Исходные тексты SDFS написаны на языке Java и доступны в рамках лицензии GPLv2. Файловая система реализована через FUSE-модуль и не привязана к конкретной программной платформе (в настоящее время доступен модуль для Linux, но планируется поддержка других операционных систем).
Для хранения данных в SDFS используется (Архивная копия от 14 августа 2016 на Wayback Machine) любая стандартная файловая система или cloud-хранилище Amazon S3, при этом SDFS выступает в роли прослойки, выполняющей функции выявления и объединения дубликатов. Данные о позиционировании дубликатов могут храниться локально или могут быть распределены на несколько узлов в сети, объединенных в рамках общего распределенного хранилища. Производительность выполнения операции поиска и объединения дубликатов составляет около 150 Мб/сек. Кроме выявления дубликатов налету предусмотрен режим периодического фонового выявления дубликатов, который запускается в промежутки наименьшей активности и не сказывается на производительности online-операций. Имеется поддержка снапшотов на уровне файлов и директорий. Вычисление дубликатов производится путем использования единой глобальной хэш-таблицы для всех присутствующих в ФС блоков данных.
Базовые компоненты SDFS:
- SDFS-раздел (SDFS Volume) - доступная для монтирования конечным пользователем дедуплицированная файловая система, которая может быть экспортирована на другие машины посредством NFS или CIFS;
- SDFS-сервис (SDFS file-system service) - управляющий работой файловой системы сервис, организующий хранение мета-данных (размер, путь и другая информация за исключением непосредственно данных) и карты имеющихся дубликатов, связанных с находящимися внутри SDFS-раздела файлами и директориями. Каждый SDFS-раздел обслуживается своим SDFS-сервисом;
- Движок дедупликации (Deduplication Storage Engine, DSE) - механизм для сохранения, извлечения и удаления повторяющихся блоков данных (размер блока 4 Кб). Блоки данных сохраняются на диске и индексируются с помощью хранимой в памяти хэш-таблицы. DSE может быть как привязан к SDFS-разделу, так и выступать в роли отдельного сетевого сервиса, обслуживающего несколько SDFS-разделов.
Источники
править- Главная ссылка к новости (http://www.cio.com.au/article/...) (Архивная копия от 31 марта 2010 на Wayback Machine)
- PDF-документ с описанием архитектуры SDFS (Архивная копия от 14 августа 2016 на Wayback Machine)
Любой участник может оформить статью: добавить иллюстрации, викифицировать, заполнить шаблоны и добавить категории.
Любой редактор может снять этот шаблон после оформления и проверки.
Комментарии
Если вы хотите сообщить о проблеме в статье (например, фактическая ошибка и т. д.), пожалуйста, используйте обычную страницу обсуждения.
Комментарии на этой странице могут не соответствовать политике нейтральной точки зрения, однако, пожалуйста, придерживайтесь темы и попытайтесь избежать брани, оскорбительных или подстрекательных комментариев. Попробуйте написать такие комментарии, которые заставят задуматься, будут проницательными или спорными. Цивилизованная дискуссия и вежливый спор делают страницу комментариев дружелюбным местом. Пожалуйста, подумайте об этом.
Несколько советов по оформлению реплик:
- Новые темы начинайте, пожалуйста, снизу.
- Используйте символ звёздочки «*» в начале строки для начала новой темы. Далее пишите свой текст.
- Для ответа в начале строки укажите на одну звёздочку больше, чем в предыдущей реплике.
- Пожалуйста, подписывайте все свои сообщения, используя четыре тильды (~~~~). При предварительном просмотре и сохранении они будут автоматически заменены на ваше имя и дату.
Обращаем ваше внимание, что комментарии не предназначены для размещения ссылок на внешние ресурсы не по теме статьи, которые могут быть удалены или скрыты любым участником. Тем не менее, на странице комментариев вы можете сообщить о статьях в СМИ, которые ссылаются на эту заметку, а также о её обсуждении на сторонних ресурсах.