[Supercomputing-2019]. Мультиоблачное хранилище как сфера применения новых накопителей Kingston DC1000M

Представьте, что вы запускаете инновационный медицинский бизнес — индивидуальный подбор лекарств на основе анализа генома человека. У каждого пациента 3 миллиарда пар генов, и обычному серверу на процессорах х86 потребуется несколько дней на расчеты. Вы знаете, что ускорить процесс можно на сервере с процессором FPGA, который распараллеливает вычисления на тысячи потоков. Он выполнит расчет генома примерно за час. Такие серверы можно взять в аренду в Amazon Web Services (AWS). Но вот незадача — заказчик в лице госпиталя категорически против помещения генетических данных в облако провайдера. Как быть? Kingston и облачный стартап показали на выставке Supercomputing-2019 архитектуру Private MultiCloud Storage (PMCS), которая решает такую задачу.

lgbcrbdqcntzckjt8zqw-b2ekok.jpeg

Три условия высокопроизводительных вычислений


Расчет генома человека — не единственная задача в сфере высокопроизводительных вычислений (HPC, High Performance Computing). Ученые рассчитывают физические поля, инженеры — детали самолетов, финансисты — экономические модели, а все вместе анализируют большие данные, строят нейронные сети и делают много других сложных вычислений.

Три условия HPC — это огромная вычислительная мощность, очень емкое и быстрое хранилище и высокая пропускная способность сети. Поэтому стандартная практика проведения НРС-вычислений — в собственном дата-центре компании (on-premises) или у провайдера в облаке.

Но свои дата-центры есть далеко не у всех компаний, а у кого есть — часто проигрывают коммерческим дата-центрам по эффективности использования ресурсов (требуются капитальные расходы на покупку и обновление «железа» и ПО, оплату высококвалифицированного персонала и т.д.). Облачные провайдеры, наоборот, предлагают IT-ресурсы по модели операционных расходов «Pay-as-you-go», т.е. арендная плата начисляется лишь за время использования. Когда вычисления проведены — серверы из аккаунта можно удалить, и тем самым сэкономить IT-бюджеты. Но при наличии законодательного или корпоративного запрета на передачу данных к провайдеру HPC-вычисления в облаке недоступны.

Private MultiCloud Storage


Архитектура Private MultiCloud Storage призвана предоставить доступ к облачным сервисам, физически оставив сами данные на площадке предприятия или в обособленном защищенном отсеке дата-центра на услуге колокейшн. По сути, это дата-центричная модель распределенных вычислений, где облачные серверы работают с удаленными системами хранения из частного облака. Соответственно, используя одно и тоже локальное хранилище данных, можно работать с облачными сервисами крупнейших провайдеров: AWS, MS Azure, Google Cloud Platform‎ и др.

Показывая пример реализации PMCS на выставке Supercomputing-2019, Kingston представила образец высокопроизводительной системы хранения данных (СХД) на базе SSD-дисков DC1000M, а один из облачных стартапов — управляющее ПО StorOne S1 для программно-определяемого хранилища и выделенные каналы связи с основными облачными провайдерами.

Надо отметить, что PMCS как рабочая модель облачных вычислений с частным хранилищем рассчитана на рынок Северной Америки с той развитой связностью сети между дата-центрами, которая поддерживается на инфраструктуре AT&T и Equinix. Так, пинг между системой хранения на колокейшн в любом узле Equinix Cloud Exchange и облаком AWS составляет менее 1 миллисекунды (источник: ITProToday).

В демонстрации архитектуры PMCS, показанной на выставке, система хранения на NVMe-дисках DC1000M размещалась на колокейшн, а в облаках AWS, MS Azure, Google Cloud Platform были заведены виртуальные машины, которые пинговали друг друга. Клиент-серверное приложение в удаленном режиме работало с системой хранения Kingston и серверами HP DL380 в дата-центре и через инфраструктуру каналов связи Equinix получало доступ к облачным платформам вышеназванных основных провайдеров.

tpz7arwvy12x6incxobpon83nik.png

Слайд с презентации Private MultiCloud Storage на выставке Supercomputing-2019. Источник: Kingston

Близкое по функциональности ПО для управления архитектурой частного мультиоблачного хранилища предлагается разными компаниями. Термины для этой архитектуры также могут звучать по-разному — Private MultiCloud Storage или Private Storage for Cloud.

«Современные суперкомпьютеры работают на множестве HPC-приложений, которые находятся на передовой прогресса — от разведки нефти и газа до прогнозов погоды, финансовых рынков и разработки новых технологий», — отметил Кит Шимменти, менеджер по корпоративному управлению твердотельными накопителями в Kingston. — Эти приложения HPC требуют гораздо большего соответствия между производительностью процессоров и скоростью ввода-вывода. Мы с гордостью рассказываем о том, как решения Kingston помогают совершать прорывы в вычислительной технике, обеспечивая производительность, необходимую в самых экстремальных вычислительных средах и приложениях в мире».

Накопитель DC1000M и пример системы хранения на его основе


SSD-накопитель DC1000M U.2 NVMe разработан Kingston для дата-центров и специально предназначен для интенсивной работы с данными и HPC, такими как приложения для искусственного интеллекта (AI) и машинного обучения (ML).

7qw7ml1lf4negruijjq5mfriopu.jpeg

Накопитель DC1000M U.2 NVMe на 3.84ТБ. Источник: Kingston

Накопители DC1000M U.2 построены на базе 96-слойной памяти Intel 3D NAND, управляемой контроллером Silicon Motion SM2270 (PCIe 3.0 и NVMe 3.0). Silicon Motion SM2270 — это 16-канальный корпоративный контроллер NVMe с интерфейсом PCIe 3.0×8, двойной 32-битной шиной данных DRAM и тремя процессорами ARM Cortex R5 dual.

К выпуску предлагаются DC1000M разного объема: от 0.96 до 7.68 ТБ (наиболее востребованными, как считается, будут емкости 3.84 и 7.68 ТБ). Производительность накопителя оценивается на уровне 800 тысяч IOPS.

na4h_rmx4vjv0m94akkmcjgrlmo.jpeg

Система хранения с 10х DC1000M U.2 NVMe 7.68 ТБ. Источник: Kingston

В качестве примера системы хранения для HPC-приложений, Kingston представила на выставке Supercomputing-2019 стоечное решение с 10 накопителями DC1000M U.2 NVMe, каждый емкостью 7.68 ТБ. Система хранения построена на базе SB122A-PH, платформы форм-фактора 1U фирмы AIC. Процессоры: 2x Intel Xeon CPU E5–2660, память Kingston DRAM 128 ГБ (8×16 ГБ) DDR4–2400 (Part Number: KSM24RS4/16HAI). В качестве ОС установлена Ubuntu 18.04.3 LTS, Linux kernel ver 5.0.0–31. Тест gfio v3.13 (Flexible I/O tester) показал производительность операций чтения 5.8 млн IOPS при пропускной способности 23.8 Гбит/с.

Представленная СХД показала впечатляющие характеристики по параметру устойчивого чтения 5,8 млн IOPS (операций ввода-вывода в секунду). Это на два порядка быстрее, чем SSD для систем масс-маркета. Такая скорость чтения нужна для HPC-приложений, выполняемых на специализированных процессорах.

Облачные вычисления HPC c частным хранилищем в России


Задача выполнения высокопроизводительных вычислений у провайдера, но физически сохраняя данные on-premises, актуальна и для российских компаний. Другой частый случай в отечественном бизнесе — когда при использовании зарубежных облачных сервисов данные должны находиться на территории РФ. Мы попросили прокомментировать эти ситуации от лица облачного провайдера Selectel как давнего партнера Kingston.

«В России можно построить аналогичную архитектуру, причем с обслуживанием на русском языке и всеми отчетными документами для бухгалтерии клиента. Если компании нужно провести высокопроизводительные вычисления, используя on-premises СХД, мы в Selectel предоставляем в аренду серверы с процессорами различных типов, включая FPGA, GPU или многоядерными CPU. Дополнительно через партнеров организуем прокладку выделенного оптического канала между офисом клиента и нашим ЦОД, — комментирует Александр Тугов, директор по развитию услуг Selectel. — Клиент также может разместить свою СХД на колокейшн в машинном зале с особым режимом доступа и запускать приложения как на наших серверах, так и в облаках глобальных провайдеров AWS, MS Azure, Google Cloud. Разумеется, задержка сигнала в последнем случае будет выше, чем если бы СХД клиента находилась в США, но широкополосное мультиоблачное соединение будет обеспечено».

В следующем материале мы расскажем про еще одно решение Кингстон, которое было представлено на выставке Supercomputing-2019 (Денвер, шт. Колорадо, США) и предназначено для приложений машинного обучения и анализа больших данных с помощью графических процессоров. Это технология GPUDirect Storage, обеспечивающая прямую передачу данных между NVMe-хранилищем и памятью процессора GPU. А кроме того, мы поясним, каким образом удалось достичь скорости чтения данных в 5.8 млн IOPS в стоечной СХД на NVMe-дисках.

Для получения дополнительной информации о продуктах Kingston Technology обращайтесь на сайт компании.

© Habrahabr.ru