Yahoo закрывает собственный Hadoop-дистрибутив и фокусирует внимание на Apache Hadoop
1 февраля 2011 года
Компания Yahoo заявила (Архивная копия от 15 октября 2012 на Wayback Machine) о прекращении развития собственного варианта платформы для организации распределенных вычислений Hadoop и переходе к формированию кодовой базы, единой с проектом Apache Hadoop. Следует отметить, что Hadoop-дистрибутив Yahoo, как и Apache Hadoop, распространялся под лицензией Apache и был доступен (Архивная копия от 25 марта 2012 на Wayback Machine) для свободного использования. Тем не менее, руководство Yahoo пришло к решению о необходимости уменьшения фрагментации Hadoop-систем и переходу к более тесному взаимодействию с сообществом Apache, в рамках которого все силы будут брошены на развитие единого продукта.
Hadoop-дистрибутив Yahoo используется в самом большом из существующих Hadoop кластеров (Hadoop кластеру Yahoo принадлежит мировой рекорд скорости сортировки большого объема данных) и отличается более жесткими требованиями к всестороннему тестированию перед использованием в промышленной эксплуатации, а также содержит ряд дополнений, оптимизированных для обеспечения работы поискового движка. Со временем степень расхождения кодовых баз Yahoo Hadoop и Apache Hadoop нарастала, что в конечном итоге заставило задуматься о необходимости нахождения компромиссного решения, способного вновь направить расходящиеся потоки в единое русло.
После принятия подобного решения руководством Yahoo, возникла новая задача - организация передачи Apache Hadoop созданных в Yahoo наработок, в которых вложено несколько человеко-лет труда. В настоящее время в Yahoo поддерживается две ветки Hadoop - стабильная и экспериментальная. Стабильная ветка непосредственно используется на кластере Yahoo, состоящем из 40 тысяч узлов, а в экспериментальной ветке обкатываются новые возможности. В настоящее время, экспериментальная ветка позволяет организовывать больше хранилищ в рамках одного кластера, содержит новый фреймворк для обработки метрик и поддерживает несколько новых техник оптимизации выполнения небольших заданий.
Интеграцию с Apache Hadoop планируется начать с передачи кода из стабильной ветки, которая по заявлению вице-президента Yahoo надежна и высокопроизводительна, как ни один из ранее выпущенных релизов Hadoop. После того как сообщество одобрит включение стабильной ветки в кодовую базу Apache Hadoop, Yahoo приступит к интеграции экспериментальной ветки. После завершения передачи наработок экспериментальной ветки, Yahoo вернется к прежнему циклу выпуска регулярных релизов, синхронизируя свою работу с другими представителями сообщества разработчиков Apache Hadoop и предоставляя значительные ресурсы для стабилизации и тестирования кода.
Hadoop является свободной платформой для организации распределенной обработки больших объемов данных (петабайты) с использованием парадигмы map/reduce, при которой задача делится на множество более мелких обособленных фрагментов, каждый из которых может быть запущен на отдельном узле кластера. В состав Hadoop входит также реализация распределенной файловой системы Hadoop Distributed Filesystem ( HDFS (Архивная копия от 10 сентября 2012 на Wayback Machine)), автоматически обеспечивающей резервирование данных и оптимизированной для работы MapReduce-приложений. Для упрощения доступа к данным в Hadoop хранилище разработана БД HBase (Архивная копия от 24 мая 2010 на Wayback Machine) и SQL-подобный язык Pig (Архивная копия от 28 сентября 2010 на Wayback Machine), который является своего рода SQL для MapReduce, запросы которого могут быть распараллелены и обработаны несколькими Hadoop-платформами.
Источники
править- Главная ссылка к новости (http://developer.yahoo.com/blo...) (Архивная копия от 15 октября 2012 на Wayback Machine)
Любой участник может оформить статью: добавить иллюстрации, викифицировать, заполнить шаблоны и добавить категории.
Любой редактор может снять этот шаблон после оформления и проверки.
Комментарии
Если вы хотите сообщить о проблеме в статье (например, фактическая ошибка и т. д.), пожалуйста, используйте обычную страницу обсуждения.
Комментарии на этой странице могут не соответствовать политике нейтральной точки зрения, однако, пожалуйста, придерживайтесь темы и попытайтесь избежать брани, оскорбительных или подстрекательных комментариев. Попробуйте написать такие комментарии, которые заставят задуматься, будут проницательными или спорными. Цивилизованная дискуссия и вежливый спор делают страницу комментариев дружелюбным местом. Пожалуйста, подумайте об этом.
Несколько советов по оформлению реплик:
- Новые темы начинайте, пожалуйста, снизу.
- Используйте символ звёздочки «*» в начале строки для начала новой темы. Далее пишите свой текст.
- Для ответа в начале строки укажите на одну звёздочку больше, чем в предыдущей реплике.
- Пожалуйста, подписывайте все свои сообщения, используя четыре тильды (~~~~). При предварительном просмотре и сохранении они будут автоматически заменены на ваше имя и дату.
Обращаем ваше внимание, что комментарии не предназначены для размещения ссылок на внешние ресурсы не по теме статьи, которые могут быть удалены или скрыты любым участником. Тем не менее, на странице комментариев вы можете сообщить о статьях в СМИ, которые ссылаются на эту заметку, а также о её обсуждении на сторонних ресурсах.