Машинное обучение в ЦОД: Можно ли доверить ИИ управление инфраструктурой?11.06.2024 11:15

Привет, Хабр! Меня зовут Кирилл, и я — архитектор инженерных систем в «Инфосистемы Джет». «При чем тут машинное обучение?» — спросите вы. Действительно, применимость ML к инженерной инфраструктуре — направление более чем свежее, и на Хабре еще никто эту тему не поднимал (кажется!).

Но сначала я расскажу предысторию. Инженерная инфраструктура в большинстве случаев является критически важной для функционирования дата-центра. Ее безотказная работа — основной критерий при разработке проекта будущего ЦОД. Повышение энергоэффективности и надежности эксплуатации — не менее важная проблема, будоражащая умы инженеров на протяжении последних лет.

В своей практике проектирования и строительства мы стараемся применять самые современные, но при этом проверенные и надежные решения. Не так давно к нам пришли два производителя решений для управления и мониторинга работы инженерной инфраструктуры с применением машинного обучения. Мы изучили техническую документацию, совместно со специалистами производителей проанализировали подходы, технологии, применяемые в решениях, алгоритмы и модели, лежащие в основе. В этой статье я расскажу о нашем опыте исследования этих продуктов, их применимости и потенциале для внедрения на реальных площадках.

Управление инфраструктурой с помощью машинного обучения с подкреплением

Прежде чем мы перейдем к сути вопроса, хотелось бы напомнить о различиях в методах машинного обучения.

Первый основной способ — так называемый Deep Learning,

где оператор создает разметку для машины с указанием, «что такое хорошо и что такое плохо». Если упрощенно, то это очень сложный условный оператор «если…, то…». Данный способ обычно используется в видеоаналитике, голосовых помощниках и т. д.

Второй способ — обучение с подкреплением.

Здесь уже оператор не принимает никакого участия в развитии интеллекта машины. У нее есть первоначальный набор операций и система «поощрений». Далее она помещается в некую среду, с которой начинает экспериментировать методом проб и ошибок. Основной задачей машины является получение наибольшего суммарного «поощрения», которое выдается за правильный результат. За неправильный результат «поощрение» отнимается. По сути, вы воспитываете ребенка в некой среде, давая или отнимая у него конфету.

Зачем был нужен этот экскурс?

Потому что предложенное нам на рассмотрение решение для управления и оптимизации инженерной инфраструктуры было построено на принципе обучения с подкреплением. И это сразу настораживает.

Сомнительно, что кто-то из владельцев ЦОД решился бы отдать свое оборудование в руки неумелого ребенка, которому только предстоит научиться им управлять.

Вы можете спросить: может быть его можно обучить где-то, а потом применить на объекте, или обучать его изолированно?

Здесь есть две основные загвоздки

Первая:

обучение с подкреплением очень привязано к среде, в которой происходит обучение. Если условия среды меняются, то машине требуется дополнительный период времени на переобучение.

Вторая:

Учить машину изолированно очень трудно. Нужен либо цифровой двойник, либо действующая модель оборудования, ведь, не получая обратной связи, машина не сможет научиться. То есть, не выполнив действия и не получив результата, она не сможет принять решение — было это правильно или нет.

Предположим, что процесс обучения машины так или иначе можно организовать. Но чем может управлять искусственный интеллект в дата-центре? Наиболее высокая доля затрат (около 40% от полезной ИТ-нагрузки) приходится на системы охлаждения. Значит, потенциально это самое широкое поле для оптимизации. Но и здесь не всё так просто.

Во-первых, самым «прожорливым» компонентом являются компрессоры, которые в большинстве своем управляются инверторами и логикой холодильных машин.

Во-вторых, тепловая нагрузка в дата-центре остается достаточно стабильной во времени.

Почему это можно считать проблемами?

Логика управления разгоном и модуляцией компрессора зашита в контроллере холодильной машины на заводе-изготовителе. Это те параметры, при которых оборудование производится, тестируется, поставляется, и при которых на него дается гарантия. В случае попытки внешнего вмешательства в управление, перехвата и подмены параметров производитель снимет гарантию и откажется от обслуживания оборудования.
Вторая проблема в том, что чем выше нестационарность процесса, т. е. амплитуда колебаний параметров во времени, тем проще попытаться что-то спрогнозировать и оптимизировать. Однако для ЦОД колебания параметров незначительны. Нагрузка может изменяться в зависимости от времени суток, возможно переключение рабочих и резервных агрегатов, но в принципе на этом вариативность направлений для повышения эффективности и заканчивается.

Существенный эффект от оптимизации скорее будет заметен на больших ЦОД, чем на небольших корпоративных серверных.

Давайте рассмотрим на примере. Есть ЦОД на 500 кВт. В нем присутствуют системы охлаждения, электроснабжения, бесперебойного питания и мониторинга. Чем мы здесь можем управлять? ИБП имеют собственную функцию экономичного режима, когда неактивные силовые модули уходят в режим ожидания для повышения КПД агрегата. Ночью снизилась нагрузка — ИБП ушел в ожидание. Сделать это раньше мы не сможем, позже — тоже. Далее — система охлаждения. Большинство кондиционеров сейчас строятся на инверторных компрессорах с большой глубиной регулирования холодопроизводительности. Обычно это от 30 до 100% от номинала. То есть в случае изменения нагрузки в ЦОД система охлаждения снижает производительность и электропотребление и работает на пониженной мощности до тех пор, пока не потребуется больше. Да, здесь можно, например, ввести поправку на воздействие солнца днем и выйти на повышенную мощность чуть раньше, чтобы избежать колебания температуры в машинном зале, но объективно это колебание температуры на 1–2 градуса в течение дня не повлияет на работоспособность оборудования. Система электрораспределения в принципе никак не может быть оптимизирована: она работает на номинальной нагрузке, и пока не случится авария — так и будет работать. Если говорить об освещении, то его доля очень невелика, а управление можно осуществить куда более простыми методами вроде датчиков движения.

В итоге мы пришли к мнению, что продукт еще не готов к потенциальному внедрению. Мы обсудили с вендором возможность доработки для использования решения как ассистента службы эксплуатации, умного помощника, который на основании своего анализа подскажет, какие действия рекомендуется выполнить в той или иной ситуации для повышения эффективности оборудования. В текущем варианте, где предусматривается перехват управления и прямое воздействие на алгоритм работы оборудования со стороны ИИ, решение имеет слишком много потенциальных рисков и сомнительную выгоду для конечного пользователя. Представители вендора признались, что они еще пока работают над этим решением и рассматривают различные сценарии и варианты оптимизации. Думаю, они учтут наши опасения при доработке продукта.

Предиктивный анализ и оценка критериев надежности

Второе поступившее нам на рассмотрение решение имеет совершенно иную функциональность и задачу, хотя и имеет у себя «под капотом» машинное обучение.

Этот комплекс применяется для предиктивного анализа условий работы оборудования или, говоря иначе, для предотвращения аварии до ее наступления.

Данная система не заменяет собой привычную SCADA-систему, а работает параллельно с ней, собирая статистические данные переменных, которые выводятся в систему мониторинга. Далее на основании алгоритмов происходит оценка и сопоставление параметров с разработкой прогнозной модели. В данном случае никакого вмешательства в работу оборудования на стороне пользователя не происходит, только выгрузка информации.

Как и для любого статистического инструмента, наличие исходной базы данных желательно, но не обязательно. Система будет собирать их с нуля, если применяется на только сданном в эксплуатацию объекте.

Для построения статистической модели в данном случае применяются методы, основанные на статистическом моделировании, на проверке статистических гипотез, на теории надежности и анализе корреляции параметров и характеристик.

Статистический анализ построен на оценке последовательного критерия Вальда и критерия Хотеллинга (Т2-анализ). Таким образом определяется параметр с наибольшим влиянием на отклонение от статистического ожидания, строятся статистические прогнозы и определяются наиболее вероятные события.

Корреляционный анализ позволяет сопоставлять параметры попарно между собой. Это позволяет оценить ожидаемое и фактическое соотношение параметров и выявить расхождения на этапе, когда это не оказывает критического влияния на работу всей системы в целом.

Оценка показателей надежности по ГОСТ Р 27.102–2021 позволяет оценить вероятность отказа, наработку, наработку на отказ и остаточный ресурс оборудования.

Совокупность этих методов позволяет выявить некорректную работу оборудования до того, как на пульте диспетчера загорится «красная лампочка», и провести техническое обслуживание или замену дефектных узлов. Таким образом, снижается время реагирования и продолжительность простоя оборудования.

Самый простой пример в данном случае — это оценка остаточного ресурса аккумуляторных батарей. Обычно заряд батарей оценивают в рамках регулярного обслуживания ИБП, но это скорее выявление отдельных дефектных элементов. В случае большого массива выход из строя нескольких батарей может в аварийной ситуации лишить необходимых драгоценных минут. В случае предиктивного анализа система заранее предупредит, что время автономии снижается и подходит к 13 минутам вместо плановых 15. Времени на диагностику и замену дефектных или старых аккумуляторов будет достаточно.

Заключение

Проанализировав обе предложенные системы, мы можем сделать следующие выводы об их применимости:

Системы, управляющие инженерным оборудованием ЦОД без руководства человека, а уж тем более вмешивающиеся в работу заранее запрограммированного оборудования на основании своих неизвестных алгоритмов, достаточно опасны. Это ведет не только к повышению риска отказа оборудования из-за нарушения рабочего режима, но и к отказу производителя от гарантийных обязательств.
Маловероятно, что кто-то позволит системе учиться на действующем объекте. Давать необученной системе доступ к управлению опасно, а обучение в изолированной среде крайне затруднительно, если не сказать невозможно.
Применение систем предиктивного анализа может позволить снизить эксплуатационные издержки на ремонт и поддержание оборудования в рабочем состоянии, сократить вероятность потенциального простоя оборудования и времени на его восстановление. Конечно, дополнительные технические средства несколько увеличивают бюджет проекта и срок ввода в эксплуатацию из-за тонкой, длительной настройки. Но с другой стороны — это система безопасности будущей эксплуатации комплекса инженерных систем, которая снижает риск отказа и простоя, а, следовательно, репутационные и экономические потери. Этот комплекс также может быть полезен организациям, берущим оборудование на аутсорсинговое техническое обслуживание. Здесь уже можно рассматривать его как услугу, предоставляемую заказчику.

Автор: Кирилл Дмитриев, архитектор инженерных систем центра сетевых решений «Инфосистемы Джет».