Ускоряемся: апгрейд инфраструктуры в ЦОДе

15e2e1eda23d8bc4423bd0fccbb5b0fe.png

В нашем ЦОДе наступил очередной цикл обновления «железа». Зачем и как мы это сделали, а главное — как именно улучшится работа облачной платформы Linxdatacenter после апгрейда в конкретных цифрах, — рассказывает в сегодняшнем материале менеджер по продуктам и решениям Linxdatacenter Олег Федоров.

The time is now 

В последний год участились запросы клиентов на высокочастотные процессоры для развертывания систем, требовательных к скорости вычислений и доступности ресурсов CPU — явный признак наступления очередного цикла обновления «железа». Так родился наш собственный проект апгрейда инфраструктуры для облака Linxdatacenter. 

В ходе долгих расчетов и переговоров нашей технической команды с производителями было принято решение об использовании валидированного дизайна от Cisco VersaStack. Такой дизайн используется в Cisco Fabric Interconnect, UCS серверах, СХД семейства IBM FlashSystem.

Было решено вывести производительность CPU облачной платформы на новый уровень: для этого мы купили новые высокочастотные блейд-сервера на UCS шасси Cisco B200 серии M5. Это самая новая линейка, с процессорами последнего поколения тактовой частотой 3.4 ГГц, которые появились на рынке только в 1-м квартале 2020 года. 

Решение с такими «мозгами» в своей основе позволяет ускорить работу продуктов, требовательных к производительности. Прежде всего, это облачные платформы 1С и SAP, ERP-решений, приложения, требующие обработки серьезных массивов данных, различные решения для разработки и тестирования ПО. 

Еще одно значимое обновление — новая система хранения резервных копий. Для обеспечения SLA по сервису BaaS было принято решение поставить в нашем ЦОДе Cisco S3260 — большой 4-юнитовый комбайн, в который «втыкается» 54 диска. Этот шаг был сделан для унификации платформ в Санкт-Петербурге и Москве. Также в отличие от старого железа это позволит нам использовать технологию Direct Storage Access. 

На Cisco S3260 ставится ПО Veeam c перспективой обеспечения модели Direct Access через интеграцию с новой системой хранения данных от IBM. Снэпшоты последних версий системы хранения и сбор бэкапов будут проходить без запроса к серверам виртуализации — таким образом мы избавляемся от лишней команды от VMware. 

Такая схема снимает с серверов избыточную нагрузку, повышает быстродействие и производительность. 

Традиционные системы резервного копирования ВМ делают снэпшот перед выполнением, далее копируют себе данные ВМ и удаляют снэпшот. Для больших и высокоинтенсивных ВМ объем снэпшота может сильно вырасти в процессе выполнения резервного копирования, и при удалении этого снэпшота происходит слияние основного диска ВМ и снэпшота. В этот момент ВМ может быть недоступна на несколько секунд. Использование технологии снэпшота на уровне СХД позволяет избежать таких проблем.

Чуть больше деталей

Рассмотрим, как именно улучшится работа облачной платформы Linxdatacenter после апгрейда. 

Ключевой момент — мы одни из первых пробуем вывести на рынок end to end NVME технологию, которая отличается высоким объемом IOPS и низкими (на порядок меньше, чем SSD) latency (задержка перед выполнением запроса). Однако такая технология требует дополнительного совершенствования инфраструктуры и затрагивает также сетевую часть, обновление которой у нас также запланировано.

Переходим к CPU. Традиционно, это самое быстро развивающееся направление в ИТ-оборудовании. К примеру, по состоянию на второй квартал 2019 года процессор на рынке при тактовой частоте 3.3 ГГц отдавал всего 8 ядер. 

Наши новые процессоры Intel 6246R при тактовой частоте 3.4 ГГц позволяют отдавать решению задач 16 ядер. Всего за год с небольшим и частота, и количество доступных ядер существенно возросли. Если говорить про виртуализацию, апгрейд позволит обеспечить большему количеству клиентов более высокопроизводительную ИТ-систему.

Что касается СХД, то этот элемент всегда был самым медленно развивающимся участком любых информационных систем. Собственно, оперативная память, как элемент любой ИТ-системы — пользовательской или профессиональной, появилась в качестве инструмента для обхода низкой производительности СХД. 

Но сегодня появляется технологическая возможность приравнять скорость работы СХД к скорости оперативной памяти, что позволит выполнять транзакции и забирать их результаты из систем хранения данных в десятки раз быстрее. 

Предположим, если одна операция — например, обработка запроса к высоконагруженной БД — раньше выполнялась за 1 минуту, то на современных СХД ее выполнение займет всего пару секунд.

И последнее, но не менее важное: IBM FlashSystem в теории позволяет снижать максимальные показатели задержки работы дисков до уровня менее 1 миллисекунды, т. е. в буквальном смысле слова — даже не до 0,1, а 0,01 миллисекунды. Сейчас мы сделали еще один шаг к этим показателям: они станут доступны в нашем облаке после следующего этапа апгрейда. 

В коня корм, в бизнес рост

Для точного описания эффекта апгрейда железа для облака уместно использовать такую аналогию. 

Представьте, что вы пишете текст в редакторе Word. Вы набрали его на клавиатуре, поднимаете глаза, а программа из набранного вами предложения успела вывести на экран только первое слово. Мысль вы обдумали, сформулировали, набрали ее пальцами на клавиатуре, она уже там, уже ушла в компьютер, но пока не отобразилась на экране.

После апгрейда инфраструктуры с комплексным подходом этот разрыв исчезает и становится невозможным даже на теоретическом уровне. 

Само собой, все эти «прокачанные» элементы нужно правильно скомпоновать в конечное решение, которое будет обеспечивать высокий уровень экономической эффективности и бизнес-пользы. 

Для бизнеса наших клиентов в России новые возможности позволят, в первую очередь, значительно ускорить работу ПО 1С. 

Если 1С требуется всего для 10–15 пользователей, она будет нормально работать даже «на калькуляторе», т. е. будет достаточно скромных или стандартных ИТ-ресурсов. Однако, как только бизнес начинает оказывать услуги в режиме реального времени на базе 1С, либо у компании появляются достаточно масштабные операции и множество различных доработок — все это «съедает» процессорное время и мощности. 

Соответственно, чем больше доработок, чем шире масштаб операций на 1С, тем выше требования к ресурсу CPU. Архитектура софта 1С выстроена именно таким образом. А дальше происходит следующее: чем выше частота процессора, тем меньшее количество ядер он может отдать. И цена его при этом повышается.

Поэтому, если используются mid-level или high-level бизнес-приложения, без высокопроизводительных процессоров в сердце современного ИТ-решения не обойтись.

С точки зрения бизнеса их использование означает, что бухгалтер, который нажал на кнопку в 1С для получения, скажем, ежегодного отчета, на высокопроизводительной системе получит результат не через 2 минуты, а мгновенно. Соответственно, конечный результат подведения бюджетов, итогов и закрытия финансового периода по всей компании он может выполнить не за трое суток, как сейчас, а четко по состоянию в последний день отчетного периода. 

Что касается задач бэкапа, то следует понимать, что любой снэпшот «фризит» виртуальную машину хотя бы на доли секунды, а иногда и более. Когда удаляется его предыдущая версия, это также может заморозить ВМ еще на пару секунд. Это стандартный эффект. 

Перенос выполнения процедуры на уровень СХД по технологии Direct Storage Access подобные задержки, пусть даже минимальные, совершенно исключает. 

Предположим, компания держит задачи по бэкапу на гиперконвергентной платформе, используя распределенный Ceph-кластер (система хранения файлов нескольких виртуальных машин). При таком подходе любые задержки ВМ недопустимы. 

Или возьмем такой сценарий: выполнение транзакции в базе данных банка, которое длится, скажем, 30 секунд, совпадает по времени с «фризом» ВМ, задействованной в этой транзакции, во время создания снэпшота. 

В итоге клиент внес деньги в банкомат, а деньги на счет не зачислились. Клиент недоволен и по сарафанному радио делится своим негативным мнением о банке. Итог — репутационные потери для бизнеса.

Первые юзеры 

В нашем ЦОДе уже есть компании, которые заинтересовались возможностями обновленной платформы и тестируют ее на бесплатной основе, чтобы посмотреть, какие практические результаты будут получены. 

Пока мы фиксируем интерес со стороны сегмента финансовых услуг, строительства, а также со стороны компаний, использующих бизнес-приложения, критичные к любым, даже минимальным простоям.  Чем меньше простоев, тем выше доступность сервиса и меньше затраты на поддержку приложения — и тем лучше функционирует сервис, который получает конечный пользователь. 

Скорее всего, всех участников этих тестов обновленная платформа заинтересует — потому что экономический выбор между покупкой одного высокопроизводительного сервера без дальнейшего развития и арендой его же на месяц виртуально очевиден как при ориентации на краткосрочные проекты, так и на перспективу длительного развития бизнеса на базе передовых ИТ-решений.

© Habrahabr.ru