Apache Spark 1.0 — крупный релиз Open Source-фреймворка для анализа данных30.05.2014 15:49

Сегодня состоялся крупный релиз фреймворка с открытым кодом для анализа данных — Spark 1.0. Ранее в этом году проект был переведён в разряд наиболее приоритетных в Apache Software Foundation (ASF).Spark — это инструмент для обработки и анализа больших объёмов информации. Версия 1.0 предлагает стабильное API (с обратной совместимостью в ветке 1.x), новый Spark SQL для доступа к структурированным данным, а также интеграцию с другим ПО от ASF: Hadoop YARN, Hive и Mesos.Патрик Вэндел (Patrick Wendell), инженер ПО в Databricks и менеджер по выпуску Apache Spark 1.0, рассказал о выходе новой версии: «В дополнение к долгосрочной поддержке API данный выпуск содержит несколько новых возможностей. Spark 1.0 включает унифицированный инструмент для развёртывания приложений на локальном компьютере через Mesos или YARN, а также на выделенном кластере. Мы добавили новый модуль Spark SQL для обеспечения моделирования данных с учетом схемы (schema-aware) и поддержки языка SQL в Spark. Библиотека машинного обучения Spark (MLLib) была улучшена путём добавления нескольких новых алгоритмов. Библиотеки потоков и графов также получили значительные обновления. Мы сосредоточились на создании инструментов для расширения возможностей учёных, занимающихся изучением больших данных, людей, занимающихся статистикой и инженеров, сталкивающихся с необходимостью обрабатывать большие объёмы данных каждый день».Apache Spark 1.0 можно скачать на сайте проекта.