EMC выпустила бесплатную версию Greenplum СУБД, библиотеки аналитических алгоритмов MADlib и инструментария Alpine Miner

Корпорация EMC, разработчик решений для информационных инфраструктур, представила бесплатную версию EMC Greenplum Community Edition, включающую Greenplum Database CE СУБД с обработкой с массовым параллелизмом (massively parallel processing, MPP) для крупномасштабной аналитики и хранилищ данных следующего поколения, MADlib – библиотеку аналитических алгоритмов с открытым исходным кодом и Alpine Miner – аналитический инструментарий независимых производителей.

По информации EMC, новая версия EMC Greenplum Community Edition устраняет стоимостные барьеры, мешающие вооружению мощными инструментами для работы с большими массивами данных большого числа разработчиков, исследователей и других профессионалов, интересующихся операциями с данными. Бесплатный набор инструментов позволяет сообществу специалистов не только лучше понимать данные, добиваться лучшей визуализации, но и вносить свой вклад в разработку инструментария и решений следующего поколения. С помощью программного стека Community Edition разработчики могут создавать сложные приложения для сбора, анализа и использования больших объемов данных на новом уровне, утверждают в EMC.

«Новая версия Community Edition предлагает стек больших объемов данных с высокой степенью распараллеливания обработки и непревзойденной скоростью, что позволяет аналитикам выполнять анализ данных нового поколения и экспериментировать с реальным данными и, что еще более важно, способствует инновациям, – подчеркнул Люк Лонерган (Luke Lonergan), технический директор, вице-президент подразделения EMC Data Computing Products Division и сооснователь Greenplum. – Суть этого проекта в том, чтобы вооружить разработчиков: теперь при программировании они могут использовать наиболее популярные инструментальные средства и добавлять расширения в продукты с открытым исходным кодом (Open Source)».

По словам разработчиков, СУБД EMC Greenplum Database использует параллельную архитектуру, основанную на разбиении полного массива данных на отдельные сегменты, работа с которыми может выполняться одновременно (shared-nothing massively parallel processing, MPP). Эта архитектура изначально разработана для бизнес-аналитики и аналитической обработки данных на стандартном оборудовании. Сегменты данных автоматически распределяются между несколькими серверами сегментов, каждый из которых владеет и управляет отдельной частью общего массива данных. Такая архитектура без разделяемых ресурсов (shared-nothing) означает, что все коммуникации осуществляются через сетевое межсоединение (interconnect), поэтому нет проблем общего доступа к данным на диске или конфликтов адресации, пояснили в EMC.

В свою очередь, библиотека с открытым исходным кодом для масштабируемых задач аналитики в базах данных MADlib (magnetic, agile and deep) реализует вычисления с параллельной обработкой в математических, статистических методах и методах машинного обучения для структурированных и неструктурированных данных. MADlib разработана для содействия широкому распространению навыков разработки масштабируемых инструментов аналитики и использования совместных усилий специалистов, занимающихся коммерческой практикой, научными исследованиями и разработкой продуктов с открытым исходным кодом.

Наконец, аналитический инструментарий Alpine Miner с интуитивно понятным визуальным средством моделирования интеллектуального анализа данных обеспечивает возможности быстрого «моделирования с оценкой» (modeling to scoring), на новом уровне использует встроенную в базу данных аналитику и специально создан для приложений для работы с большими объемами данных, сообщили в EMC.

Начальная версия EMC Greenplum Community Edition разработана как для пользователей-новичков, так и для опытных заказчиков Greenplum. Пользователи, впервые знакомящиеся с продуктом, получают доступ к полной специализированной среде бизнес-аналитики, которая позволяет им просматривать, модифицировать и оптимизировать включенные в продукт демонстрационные файлы данных, что дает возможность поэкспериментировать с аналитическими инструментами для работы с большими объемами данных в СУБД Greenplum, пояснили разработчики. Пользователи, уже применяющие этот продукт, могут скачать обновленную версию Greenplum Database CE и инструменты аналитики для интеграции со своей средой разработки и исследовательскими средами.

Версию Community Edition можно скачать как виртуальную машину VMWare с уже настроенной конфигурацией и использовать ее на портативных или настольных компьютерах либо как набор пакетов для разработки на пользовательских машинах.

Начиная с 1 февраля, версию EMC Greenplum Community Edition можно бесплатно скачать с сайта community.greenplum.com. В онлайне также будут доступны обновления Regular Community Edition. Версия Community Edition предназначена только для экспериментальных целей, разработки и исследований. Пользователи текущего издания Single-Node Edition могут развернуть новое издание Community Edition в своей одноузловой рабочей среде. Прежде чем использовать программный код для внутренней обработки данных или в любых коммерческих либо в производственных целях, нужно купить коммерческие лицензии на Greenplum.

©  CNews