Spark 1.5 -- распределенная система обработки данных
9 сентября 2015 года стала доступна новая версия высокопроизводительной системы распределенной обработки данных.
Apache Spark — это высокопроизводительная система для распределенной обработки данных, основанная на модели вычислений в памяти.
Spark предназначен для запуска в окружении Hadoop-кластера через использование механизма YARN или в одиночном режиме. В качестве уровня хранения данных могут быть использованы HDFS, HBase, Cassandra, Hive или любой Hadoop input format. Поддерживается работа в пакетном режиме (подобно map-reduce), а также режимы потоковой обработки, интерактивных запросов и машинного обучения. Spark предоставляет программные интерфейсы для работы с языками Python, Java и Scala.
Является проектом верхнего уровня Apache Software Foundation (ссылка).
( читать дальше... )
apache spark