Yahoo закрывает собственный Hadoop-дистрибутив и фокусирует внимание на Apache Hadoop

1 февраля 2011 года

Компания Yahoo заявила (Архивная копия от 15 октября 2012 на Wayback Machine) о прекращении развития собственного варианта платформы для организации распределенных вычислений Hadoop и переходе к формированию кодовой базы, единой с проектом Apache Hadoop. Следует отметить, что Hadoop-дистрибутив Yahoo, как и Apache Hadoop, распространялся под лицензией Apache и был доступен (Архивная копия от 25 марта 2012 на Wayback Machine) для свободного использования. Тем не менее, руководство Yahoo пришло к решению о необходимости уменьшения фрагментации Hadoop-систем и переходу к более тесному взаимодействию с сообществом Apache, в рамках которого все силы будут брошены на развитие единого продукта.

Hadoop-дистрибутив Yahoo используется в самом большом из существующих Hadoop кластеров (Hadoop кластеру Yahoo принадлежит мировой рекорд скорости сортировки большого объема данных) и отличается более жесткими требованиями к всестороннему тестированию перед использованием в промышленной эксплуатации, а также содержит ряд дополнений, оптимизированных для обеспечения работы поискового движка. Со временем степень расхождения кодовых баз Yahoo Hadoop и Apache Hadoop нарастала, что в конечном итоге заставило задуматься о необходимости нахождения компромиссного решения, способного вновь направить расходящиеся потоки в единое русло.

После принятия подобного решения руководством Yahoo, возникла новая задача - организация передачи Apache Hadoop созданных в Yahoo наработок, в которых вложено несколько человеко-лет труда. В настоящее время в Yahoo поддерживается две ветки Hadoop - стабильная и экспериментальная. Стабильная ветка непосредственно используется на кластере Yahoo, состоящем из 40 тысяч узлов, а в экспериментальной ветке обкатываются новые возможности. В настоящее время, экспериментальная ветка позволяет организовывать больше хранилищ в рамках одного кластера, содержит новый фреймворк для обработки метрик и поддерживает несколько новых техник оптимизации выполнения небольших заданий.

Интеграцию с Apache Hadoop планируется начать с передачи кода из стабильной ветки, которая по заявлению вице-президента Yahoo надежна и высокопроизводительна, как ни один из ранее выпущенных релизов Hadoop. После того как сообщество одобрит включение стабильной ветки в кодовую базу Apache Hadoop, Yahoo приступит к интеграции экспериментальной ветки. После завершения передачи наработок экспериментальной ветки, Yahoo вернется к прежнему циклу выпуска регулярных релизов, синхронизируя свою работу с другими представителями сообщества разработчиков Apache Hadoop и предоставляя значительные ресурсы для стабилизации и тестирования кода.

Hadoop является свободной платформой для организации распределенной обработки больших объемов данных (петабайты) с использованием парадигмы map/reduce, при которой задача делится на множество более мелких обособленных фрагментов, каждый из которых может быть запущен на отдельном узле кластера. В состав Hadoop входит также реализация распределенной файловой системы Hadoop Distributed Filesystem ( HDFS (Архивная копия от 10 сентября 2012 на Wayback Machine)), автоматически обеспечивающей резервирование данных и оптимизированной для работы MapReduce-приложений. Для упрощения доступа к данным в Hadoop хранилище разработана БД HBase (Архивная копия от 24 мая 2010 на Wayback Machine) и SQL-подобный язык Pig (Архивная копия от 28 сентября 2010 на Wayback Machine), который является своего рода SQL для MapReduce, запросы которого могут быть распараллелены и обработаны несколькими Hadoop-платформами.

Источники

править
 
 
Creative Commons
Эта статья содержит материалы из статьи «Yahoo закрывает собственный Hadoop-дистрибутив и фокусирует внимание на Apache Hadoop», опубликованной OpenNET и распространяющейся на условиях лицензии Creative Commons Attribution (CC BY) — указание автора, источник и лицензию.
 
Эта статья загружена автоматически ботом NewsBots в архив и ещё не проверялась редакторами Викиновостей.
Любой участник может оформить статью: добавить иллюстрации, викифицировать, заполнить шаблоны и добавить категории.
Любой редактор может снять этот шаблон после оформления и проверки.

Комментарии

Викиновости и Wikimedia Foundation не несут ответственности за любые материалы и точки зрения, находящиеся на странице и в разделе комментариев.