Yahoo закрывает собственный Hadoop-дистрибутив и фокусирует внимание на Apache Hadoop01.02.2011 18:41

Компания Yahoo заявила о прекращении развития собственного варианта платформы для организации распределенных вычислений Hadoop и переходе к формированию кодовой базы, единой с проектом Apache Hadoop. Следует отметить, что Hadoop-дистрибутив Yahoo, как и Apache Hadoop, распространялся под лицензией Apache и был доступен для свободного использования. Тем не менее, руководство Yahoo пришло к решению о необходимости уменьшения фрагментации Hadoop-систем и переходу к более тесному взаимодействию с сообществом Apache, в рамках которого все силы будут брошены на развитие единого продукта.

Hadoop-дистрибутив Yahoo используется в самом большом из существующих Hadoop кластеров (Hadoop кластеру Yahoo принадлежит мировой рекорд скорости сортировки большого объема данных) и отличается более жесткими требованиями к всестороннему тестированию перед использованием в промышленной эксплуатации, а также содержит ряд дополнений, оптимизированных для обеспечения работы поискового движка. Со временем степень расхождения кодовых баз Yahoo Hadoop и Apache Hadoop нарастала, что в конечном итоге заставило задуматься о необходимости нахождения компромиссного решения, способного вновь направить расходящиеся потоки в единое русло.

После принятия подобного решения руководством Yahoo, возникла новая задача - организация передачи Apache Hadoop созданных в Yahoo наработок, в которых вложено несколько человеко-лет труда. В настоящее время в Yahoo поддерживается две ветки Hadoop - стабильная и экспериментальная. Стабильная ветка непосредственно используется на кластере Yahoo, состоящем из 40 тысяч узлов, а в экспериментальной ветке обкатываются новые возможности. В настоящее время, экспериментальная ветка позволяет организовывать больше хранилищ в рамках одного кластера, содержит новый фреймворк для обработки метрик и поддерживает несколько новых техник оптимизации выполнения небольших заданий.

Интеграцию с Apache Hadoop планируется начать с передачи кода из стабильной ветки, которая по заявлению вице-президента Yahoo надежна и высокопроизводительна, как ни один из ранее выпущенных релизов Hadoop. После того как сообщество одобрит включение стабильной ветки в кодовую базу Apache Hadoop, Yahoo приступит к интеграции экспериментальной ветки. После завершения передачи наработок экспериментальной ветки, Yahoo вернется к прежнему циклу выпуска регулярных релизов, синхронизируя свою работу с другими представителями сообщества разработчиков Apache Hadoop и предоставляя значительные ресурсы для стабилизации и тестирования кода.

Hadoop является свободной платформой для организации распределенной обработки больших объемов данных (петабайты) с использованием парадигмы map/reduce, при которой задача делится на множество более мелких обособленных фрагментов, каждый из которых может быть запущен на отдельном узле кластера. В состав Hadoop входит также реализация распределенной файловой системы Hadoop Distributed Filesystem (HDFS), автоматически обеспечивающей резервирование данных и оптимизированной для работы MapReduce-приложений. Для упрощения доступа к данным в Hadoop хранилище разработана БД HBase и SQL-подобный язык Pig, который является своего рода SQL для MapReduce, запросы которого могут быть распараллелены и обработаны несколькими Hadoop-платформами.