Выпуск движка хранения TileDB 2.0
9 мая 2020 года
Опубликовано хранилище TileDB 2.0, оптимизированное для хранения многомерных массивов и данных, используемых в научных расчётах. В качестве областей применения TileDB упоминаются различные системы обработки генетической информации, пространственных и финансовых данных, т.е. системы оперирующие разрежёнными или непрерывно заполняемыми многомерными массивами. TileDB предлагает С++ библиотеку для прозрачного абстрагирования доступа к данным и метаданным в приложениях, беря на себя всю работу по низкоуровневой организации эффективного хранения. Код проекта написан на языке С++ и распространяется под лицензией MIT. Поддерживается работа в Linux, macOS и Windows.
Основные особенности TileDB:
- Эффективные методы хранения разреженных массивов, данные в которых не следуют непрерывно, массив заполняется фрагментами, и большая часть элементов остаются пустыми или принимают одно и то же значение.
- Возможность доступа к данным в формате ключ-значение или наборов столбцов ( DataFrame (Архивная копия от 2 августа 2020 на Wayback Machine));
- Поддержка интеграции с облачными хранилищами AWS S3, Google Cloud Storage и Azure Blob Storage;
- Поддержка мозаичных (блочных) массивов;
- Возможность использования разных алгоритмов сжатия и шифрования данных;
- Поддержка проверки целостности по контрольным суммам;
- Работа в многопоточном режиме c распараллеливанием ввода/вывода;
- Поддержка версионирования хранимых данных в том числе для выборки состояния в определённый момент в прошлом или атомарных обновлений целиком больших наборов.
- Возможность привязки метаданных;
- Поддержка группировки данных;
- Модули интеграции для использования в качестве низкоуровневого движка хранения в Spark, Dask, MariaDB, GDAL, PDAL, Rasterio, gVCF и PrestoDB;
- Библиотеки-обвязки над C++ API для языков Python, R, Java и Go.
Выпуск 2.0 примечателен поддержкой концепции "DataFrame", которая позволяет хранить данные в форме столбцов значений произвольной длины, привязанных к определённым атрибутам. Хранилище также оптимизировано для обработки разреженных массивов разнородного размера (в ячейках могут хранится данные разного типа и можно выполнять операции слияния столбцов разного типа, например, в которых хранится название, время и цена). Добавлена поддержка столбцов со строковыми данными. Добавлены модули для интеграции с Google Cloud Storage и Azure Blob Storage. Переработан API для языка R.
Источники
править
Любой участник может оформить статью: добавить иллюстрации, викифицировать, заполнить шаблоны и добавить категории.
Любой редактор может снять этот шаблон после оформления и проверки.
Комментарии
Если вы хотите сообщить о проблеме в статье (например, фактическая ошибка и т. д.), пожалуйста, используйте обычную страницу обсуждения.
Комментарии на этой странице могут не соответствовать политике нейтральной точки зрения, однако, пожалуйста, придерживайтесь темы и попытайтесь избежать брани, оскорбительных или подстрекательных комментариев. Попробуйте написать такие комментарии, которые заставят задуматься, будут проницательными или спорными. Цивилизованная дискуссия и вежливый спор делают страницу комментариев дружелюбным местом. Пожалуйста, подумайте об этом.
Несколько советов по оформлению реплик:
- Новые темы начинайте, пожалуйста, снизу.
- Используйте символ звёздочки «*» в начале строки для начала новой темы. Далее пишите свой текст.
- Для ответа в начале строки укажите на одну звёздочку больше, чем в предыдущей реплике.
- Пожалуйста, подписывайте все свои сообщения, используя четыре тильды (~~~~). При предварительном просмотре и сохранении они будут автоматически заменены на ваше имя и дату.
Обращаем ваше внимание, что комментарии не предназначены для размещения ссылок на внешние ресурсы не по теме статьи, которые могут быть удалены или скрыты любым участником. Тем не менее, на странице комментариев вы можете сообщить о статьях в СМИ, которые ссылаются на эту заметку, а также о её обсуждении на сторонних ресурсах.