Что будет, если в СДХ убрать семь из восьми контроллеров?
Инфраструктура
Компания «Аметист» — комплексный системный интегратор, который в своих работах часто использует системы хранения данных. Специалисты «Аметиста» протестировали флеш-систему хранения Huawei OceanStor Dorado 18000 и делятся своими выводами с читателями CNews.
В последние годы наблюдается активное внедрение систем хранения данных в сценариях поддержки критически важных приложений в тех областях, где требуется высокая надежность, в том числе в финансовой сфере и государственном секторе. Как показывают исследования, один час непредвиденного простоя в работе критически важных сервисов приводит к убыткам в размере $6,48 млн в финансовой отрасли, $2,8 млн в энергетике и $2 млн в телекоммуникациях. В результате простоя компании теряют клиентов, репутацию и получают другой неизмеримый ущерб. В последние годы компания Huawei вкладывала немало усилий в разработку систем хранения данных, чтобы повысить конкурентоспособность устройств серии OceanStor Dorado. В этой статье мы расскажем, как Huawei выполнила эту задачу.
Полносвязанная архитектура вместо классической архитектуры устанавливает новые ориентиры
Архитектура системы давно уже признана главным качеством, которое следует рассматривать при оценке профессиональных систем хранения. СХД Huawei OceanStor Dorado 18000 предлагает пользователям новаторскую архитектуру SmartMatrix. Полносвязанная архитектура SmartMatrix обеспечивает взаимодействие всех контроллеров и полный доступ для обмена ресурсами между внешними и внутренними интерфейсными модулями. Эта архитектура устойчива к отказам оборудования и обеспечивает высокую надежность обслуживания. Ни одна аппаратная неисправность не затрагивает сервисы верхнего уровня.
Давайте оценим, как СХД Huawei OceanStor Dorado 18000 справляется с ситуациями выхода из строя семи из восьми контроллеров, одного из двух контроллерных блоков или отказа контроллера.
Итог 1: без переключения каналов и без влияния на сервисы при отказе контроллера
Ключ к нулевому влиянию на сервисы хоста при отказе контроллера лежит в специфике внешних интерфейсных модулях. При использовании традиционных интерфейсных модулей они привязаны к контроллерам, и запросы ввода-вывода предварительно обрабатываются контроллером перед передачей и часто пересылаются между контроллерами. В случае неисправности контроллера запускается механизм переключения пути ввода-вывода. На эту операцию уходит 5–30 секунд. СХД Huawei OceanStor Dorado 18000 поддерживает внешние модули ввода-вывода (Front-End-Module; FIM), которые интеллектуально идентифицируют и обрабатывают команды ввода-вывода хоста и передают их по предварительно настроенным правилам. Таким образом, команды ввода-вывода хоста отправляются напрямую в оптимальный контроллер, где быстро обрабатываются без предобработки локальным контроллером и пересылки между контроллерами. Если контроллер выходит из строя, чип порта FIM обнаруживает разъединение канала PCIe с контроллером. Затем, согласовав операцию с механизмом переключения сервисов данного контроллера, FIM перенаправляет запросы хоста другим контроллерам и инициирует защитное переключение, которое длится не более нескольких секунд, не затрагивая сервисы хоста.
Итог 2: устойчивость к выходу из строя «семи из восьми» контроллеров и «одного из двух» контроллерных блоков без прерывания сервисов
В традиционной системе хранения к дисковому модулю получают доступ не все контроллеры. То есть можно сказать, что дисковый модуль «принадлежит» определенному контроллерному блоку. Эта особенность не только ухудшает надежность каналов, но и осложняет передачу команд ввода-вывода от контроллеров к дисковым модулям. В случае неисправности контроллера становятся недоступными подключенные к нему диски. В СХД Huawei OceanStor Dorado 18000 используются внутренние модули интерфейсов ввода-вывода (Back-End Interconnect Module; BIM), за счет чего дисковые модули полностью взаимодействуют со всеми восемью контроллерами.
Также применяется оригинальная технология использования трех экземпляров кэша в сочетании с функцией «активный-активный». Три экземпляра кэша распределяются между тремя разными контроллерами, таким образом, в случае отказа двух контроллеров или одного контроллерного блока доступен, по крайней мере, один действительный экземпляр кэша записи, за счет этого гарантируется безостановочная работа сервисов. Кроме того, в системе реализована технология непрерывного зеркалирования кэш-памяти, которая в условиях неисправности контроллера восстанавливает зеркало кэша и делает систему устойчивой к выходу из строя семи из восьми контроллеров без остановки сервисов.
Бонус: сквозная глобальная балансировка нагрузки и протокол RDMA с низкой задержкой
Уникальным преимуществом архитектуры SmartMatrix является сквозная глобальная балансировка нагрузки. Если принять аппаратную архитектуру за скелет, то архитектура программного обеспечения будет выполнять роль мышц и нервов. Жесткий скелет гармоничнее работает с гибкими мышцами и крепкими нервами. СХД Huawei OceanStor Dorado 18000 является единственной системой хранения данных, в которой реализован четырехуровневый механизм сквозной глобальной балансировки. Для балансировки нагрузки используется инновационное программное обеспечение multipathing (ввод-вывод с использованием нескольких путей), модули внешних интерфейсов с полным доступом, глобальный кэш и технологии RAID 2.0+.
- В СХД Huawei OceanStor Dorado 18000 используется алгоритм балансировки нагрузки и инновационное программное обеспечение multipathing для равномерного распределения команд ввода-вывода хоста между всеми внешними портами. Каждый внешний порт равномерно принимает запросы на чтение и запись от хостов, выравнивая нагрузку на стороне доступа.
- На внешних портах используется схема взаимодействия FIM с несколькими контроллерами и оптимизированный алгоритм балансировки для равномерного распределения команд ввода-вывода хоста между всеми контроллерами. Каждый контроллер равномерно получает от хостов запросы на чтение и запись, что обеспечивает ровную нагрузку внешней подсистемы на стороне хранения.
- Технология глобальной кэш-памяти используется для унифицированной обработки запросов на чтение и запись, получаемых каждым контроллером. Поскольку LUNы не принадлежат определенному контроллеру, запросы ввода-вывода обрабатываются ближайшим контроллером. Запросы не требуется пересылать контроллеру, которому «принадлежит» данный LUN. Таким образом, достигается равномерное распределение и балансирование нагрузки между контроллерами.
- Технология RAID 2.0+ ровно распределяет данные между всеми дисками в пуле хранения, что обеспечивает баланс нагрузки между SSD.
В СХД Huawei OceanStor Dorado 18000 используются каналы RDMA 100 Гбит/с для организации соединений между контроллерами, между контроллерными блоками, между блоком SSD и контроллерным блоком. Вместо центрального процессора за перенос данных по каналам RDMA отвечают интерфейсные модули, что повышает эффективность передачи данных и уменьшает задержку доступа.
Заключение
В СХД Huawei OceanStor Dorado 18000 используется полносвязанная архитектура SmartMatrix, состоящая из стека различных технологий. За счет нее OceanStor Dorado 18000 задаетновый эталон надежности и быстродействия и способствует дальнейшему развитию систем хранения на базе твердотельных накопителей.
Компания «Аметист» активно использует Huawei OceanStor Dorado 18000в своих проектах и рекомендует ее заказчикам, которым для решения бизнес-задач необходима система хранения класса high end.
Полный текст статьи читайте на CNews