Группа НЛМК подвела итоги автоматизации ИТ-мониторинга
Михаил Полютин
руководитель направления операционного управления, НЛМК-ИТ
Как автоматизировать максимальное количество рутинных операций в ИТ-мониторинге, ускорить работу с инцидентами и получить полную картину здоровья ИТ-окружения в реальном времени? В этом материале руководитель направления операционного управления, НЛМК-ИТ Михаил Полютин делится опытом автоматизации процессов мониторинга и эксплуатации в Группе НЛМК, входящей в топ-25 сталелитейных компаний мира. Проект реализован на базе российской платформы Monq.
О НЛМК
Группа НЛМК — лидирующий международный производитель высококачественной стальной продукции с вертикально-интегрированной моделью бизнеса. Добыча сырья и производство стали сосредоточены в низкозатратных регионах, изготовление готовой продукции осуществляется в непосредственной близости от основных потребителей в России, Северной Америке и странах ЕС.
За создание, внедрение и поддержку ИТ-систем в компании отвечает команда НЛМК ИТ, которая ориентируется на передовые инструменты и практики — ML и AI — для максимально эффективной поддержки одного из крупнейших металлургических производств в мире.
ИТ-мониторинг как один из незаменимых элементов непрерывности бизнеса
ИТ в нашей компании — помощник и инструмент обеспечения непрерывности бизнеса. Для того, чтобы обеспечить эту непрерывность, нам необходимо постоянно держать «руку на пульсе» и понимать, что в данный момент происходит с инфраструктурой и бизнес-сервисами компании. Аварийные инциденты означают простои и денежные потери, которых, естественно, мы хотим избежать. Именно поэтому для нас качественный ИТ-мониторинг — это, в первую очередь, инструмент наблюдения, автоматического реагирования и прогнозирования возможных проблем.
Надо отметить, что и подходы, и процессы к мониторингу у нас давно и эффективно выстроены — все необходимые системы непрерывно находятся на мониторинге, мы понимаем взаимосвязи между ними, а ситуационный центр оперативно отрабатывает возникающие проблемы. Таким образом, мы уже прошли этап выстраивания процессов и искали решение для продвинутой аналитики, авторасчета цифрового здоровья на основе автоматически настраиваемых взаимосвязей и непрерывно поступающих больших данных, а также максимальной автоматизации рутинных ручных задач.
Выбирая решение, мы искали систему с целым рядом параметров:
- с функциями искусственного интеллекта и машинного обучения для прогнозирования сбоев и выявления аномалий;
- с встроенными инструментами автоматизации для автоматизации рутинных задач в ситуационном центре, ускорения работы с инцидентами и исключения человеческих ошибок;
- с возможностью не просто собрать в одном инструменте большое количество информации — логов, метрик, событий из различных систем мониторинга, но и видеть полную картину состояния не разрозненно, а в структурированном виде, со связями влияния;
- дополнительными параметрами были возможность интеграции со всеми существующими у нас системами, отдающими метрики о состоянии ИТ, и регистрация в Реестре Минцифры.
Выбор остановили на российской платформе Monq — она полностью соответствует нашим ожиданиям в части зонтичного мониторинга и автоматизации, а функции ИИ в процессе разработки — так, в ближайшей версии продукта появится детектор аномалий, а прогнозирование метрик уже можно попробовать в уже вышедшей последней версии. Таким образом, мы вкладываемся не только в текущий функционал продукта, а по сути, в будущие передовые практики мониторинга, который развивает вендор.
Как изменилась работа ситуационного центра
Проект еще находится на стадии внедрения. На текущий момент к Monq уже подключены девять информационных систем компании. Важно отметить, что с платформой сразу работает ситуационный центр — мы искали решение именно для автоматизации инцидент-менеджмента, и нам важно, чтобы продукт получил одобрение внутренних конечных пользователей.
На экране оперативного центра команда ситуационного центра видит состояние цифрового здоровья подключенных систем в реальном времени — данные поступают, анализируются и обогащают модели здоровья автоматически.
В Monq существуют два типа автоматизации — low-code для сбора и обработки данных и построения ресурсно-сервисных моделей, и no-code — для автоматизации бизнес-процессов мониторинга и эксплуатации, например, для настройки нотификации и эскалации.
Именно эта автоматизация позволила автоматизировать ряд рутинных задач, которые раньше выполнялись вручную, — создания групп по инциденту, отправке оповещений и др. Текущая работа с событиями мониторинга в Monq представлена на схеме:
Таким образом, система автоматически собирает под один «зонтик» все данные, автоматически их обрабатывает и выводит состояние подключенных систем на единый экран дежурной смены оперативного центра, а при возникновении проблем — регистрирует и закрывает инциденты и автоматически оповещает ответственных по цепочкам эскалации.
Мы будем развивать проект и с большим удовольствием поделимся с читателями CNews будущими новостями и кейсами.
Полный текст статьи читайте на CNews