Компания Yahoo выпустила свободный дистрибутив платформы Apache Hadoop

12 июня 2009 года

Компания Yahoo объявила о выпуске собственной версии дистрибутива платформы Apache Hadoop, предназначенной для организации распределенной обработки больших объемов данных (петабайты) с использованием парадигмы map/reduce, когда задача делится на множество более мелких обособленных фрагментов, каждый из которых может быть запущен на отдельном узле кластера. Дистрибутив включает в себя набор подготовленных в недрах Yahoo дополнений и улучшений, используется в компании непосредственно в работе поискового движка и распространяется в исходных текстах. Код Hadoop и новый дистрибутив Yahoo распространяются под лицензией Apache 2.0.

Представленный код отличается высоким качеством и всесторонне протестирован в промышленной эксплуатации, так как непосредственно используется в самых больших из существующих Hadoop кластеров (Hadoop кластеру Yahoo принадлежит мировой рекорд скорости сортировки большого объема данных). Разработчики Yahoo надеются, что представленный пакет сможет помочь развитию оригинального проекта Apache Hadoop, поддерживаемого Apache Software Foundation, а также повысить качество дистрибутива Cloudera, нацеленного на упрощение развертывания и конфигурирования Hadoop кластеров. Из других проектов, использующих систему Hadoop, можно отметить социальную сеть Facebook и Microsoft Kumo (поисковая технология идущая на смену Live Search).

Одновременно компания Cloudera представила проект Sqoop, предназначенный для миграции данных из классических SQL баз или отдельных таблиц в хранилище на базе Apache Hadoop. Кроме того, Sqoop поддерживает средства для генерации готовых Java классов для последующей работы с импортированными данными. Для упрощения доступа к данным в Hadoop хранилище изначально разрабатывается SQL-подобный язык Pig, который является своего рода SQL для MapReduce, запросы которого могут быть распараллелены и обработаны несколькими Hadoop-платформами.

Источники

править


 
 
Creative Commons
Эта статья содержит материалы из статьи «Компания Yahoo выпустила свободный дистрибутив платформы Apache Hadoop», опубликованной OpenNET и распространяющейся на условиях лицензии Creative Commons Attribution (CC BY) — указание автора, источник и лицензию.
 
Эта статья загружена автоматически ботом NewsBots в архив и ещё не проверялась редакторами Викиновостей.
Любой участник может оформить статью: добавить иллюстрации, викифицировать, заполнить шаблоны и добавить категории.
Любой редактор может снять этот шаблон после оформления и проверки.

Комментарии

Викиновости и Wikimedia Foundation не несут ответственности за любые материалы и точки зрения, находящиеся на странице и в разделе комментариев.