Spark 1.5 -- распределенная система обработки данных18.09.2015 08:45

9 сентября 2015 года стала доступна новая версия высокопроизводительной системы распределенной обработки данных.

Apache Spark — это высокопроизводительная система для распределенной обработки данных, основанная на модели вычислений в памяти.

Spark предназначен для запуска в окружении Hadoop-кластера через использование механизма YARN или в одиночном режиме. В качестве уровня хранения данных могут быть использованы HDFS, HBase, Cassandra, Hive или любой Hadoop input format. Поддерживается работа в пакетном режиме (подобно map-reduce), а также режимы потоковой обработки, интерактивных запросов и машинного обучения. Spark предоставляет программные интерфейсы для работы с языками Python, Java и Scala.

Является проектом верхнего уровня Apache Software Foundation (ссылка).

( читать дальше... )

apache spark