IBM представила архитектуру нового поколения для выполнения аналитических задач26.11.2010 12:35

Корпорация IBM представила новую архитектурную модель хранения данных, разработанную учеными IBM, которая позволит преобразовывать терабайты «чистой» информации в применимые на практике знания в два раза быстрее, чем это было возможно ранее. Новая архитектура, оптимально подходящая для приложений «облачных вычислений» и рабочих нагрузок с интенсивной обработкой данных (подобно цифровым медиа, финансовой аналитике и извлечению из данных ценной информации), сэкономит клиентам часы сложных вычислительных процессов без необходимости осуществления значительных инвестиций в инфраструктуру, утверждают в корпорации.

Выполнение аналитических задач с огромными массивами данных приобретает сегодня все большую важность, однако организации могут пока лишь продолжать соответствующим образом наращивать мощности своих корпоративных систем хранения. «Компании буквально наталкиваются на непреодолимое препятствие, будучи не в состоянии справиться с огромными объемами ежедневно генерируемых данных, — отметил Прасенджит Саркар (Prasenjit Sarkar), ведущий изобретатель (Master Inventor) по направлению Storage Analytics and Resiliency в исследовательском центре IBM Research–Almaden. — Мы постоянно исследуем и разрабатываем наиболее передовые в отрасли технологии хранения информации с целью решения проблемы "больших данных". Этот новый метод разбиения памяти хранения данных на логические разделы (storage partitioning) является важным шагом на этом пути, поскольку он ускоряет для компаний процесс "получения знаний из данных" (time-to-insight), позволяя не беспокоиться о традиционных ограничениях системы хранения».

Новая архитектура, созданная в исследовательском центре IBM Research–Almaden и получившая название General Parallel File System-Shared Nothing Cluster (GPFS-SNC), призвана обеспечивать повышенный уровень готовности посредством передовых технологий кластеризации и управления динамической файловой системой, а также новаторским методикам репликации данных. Новая архитектура основана на принципе «shared nothing» («никаких общих ресурсов» – когда узлы в составе кластера не имеют одновременного доступа к одним и тем же данным, а каждый из них работает со своим отдельным разделом базы данных). По информации IBM, это позволяет достичь новых уровней готовности, производительности и масштабируемости.

В целом GPFS-SNC представляет собой распределенную вычислительную архитектуру, в которой каждый узел является самостоятельным объектом; рабочие задачи распределяются между этими независимыми объектами-компьютерами, и ни один из них в процессе работы (и обращения к данным) не тратит время на ожидание другого, говорится в сообщении корпорации.

Существующее предложение IBM на базе GPFS является ключевой технологией для таких решений, как IBM High Performance Computing Systems, IBM Information Archive, IBM Scale-Out NAS (SONAS) и IBM Smart Business Compute Cloud. Инновации, разработанные в исследовательском центре, способствуют дальнейшему распространению этих решений и должны помочь справиться с серьезными проблемами больших данных, полагают в IBM.

Так, например, крупные финансовые институты, которые используют сложнейшие алгоритмы для анализа информации, вынуждены обрабатывать петабайты данных. Во всем мире через разнообразные вычислительные платформы проходят, а затем и сохраняются многие миллиарды файлов. Кроме того, эти ответственные вычисления из-за своей сложности требуют очень значительных ресурсов и затрат. Благодаря применению архитектуры GPFS-SNC выполнение сложных аналитических рабочих нагрузок может стать более эффективным, поскольку эта архитектурная модель предоставляет единую файловую систему и пространство имен (namespace) для всех разнородных вычислительных платформ, оптимизируя процесс и экономя дисковую память, пояснили в IBM.