ЦОД и цифровая трансформация

Инфраструктура электропитания и охлаждения ЦОД сегодня генерирует примерно в три раза больше данных и сообщений, чем 10 лет назад. Традиционные средства удаленного мониторинга не рассчитаны на такой информационный поток. Попробуем разобраться, как извлечь из большого объема получаемых данных ценную информацию и повысить эффективность эксплуатации дата-центра, какие потенциальные возможности это открывает.

31d6c8c4957a4812b0c20e82e2870db0.jpg

Прежние средства мониторинга значительно отличаются от современных, использующих облачные вычисления, аналитику и мобильные приложения. Навигаторы, фитнес-трекеры стали привычными гаджетами, но в большинстве ЦОД современные технологии, такие как аналитика больших данных и машинное обучение по-прежнему не используются, хотя они могут буквально произвести революцию в эксплуатации ЦОД. По аналогии с популярным сейчас термином «цифровая трансформация» будем называть мониторинг нового поколения цифровым мониторингом.

Функция
Традиционный удаленный мониторинг
Цифровой удаленный мониторинг
Режим «онлайн»
Нет
Да 
Удаленная диагностика
Обычно нет
Да 
Сетевой операционный центр (NOC)
Да 
Да 
Отслеживание инцидентов
Редко
Да 
Аналитика
Нет
Да 
Мобильное приложение с оперативными уведомлениями
Нет
Да 
Чат
Нет
Да 
Мониторинг в реальном времени
Нет
Да 
Защищенное сетевое подключение
Нет сети
Да 
Облачное хранение данных
Нет
Да 
Статус «при исполнении»
Нет
Да 
Поддерживаемые устройства
Обычно ИБП
Все SNMP-устройства

Основное отличие цифрового мониторинга от обычного — постоянное подключение к компьютеру по выделенному каналу или через интернет и использование самых современных технологий — от машинного обучения до интернета вещей. Традиционный мониторинг не является онлайновым сервисом и не работает в реальном времени. Он лишь уведомляет об изменении состояния, обычно посредством почтового сообщения.

Цифровой мониторинг работает в режиме онлайн: постоянное подключение к ЦОД (обычно через шлюз) позволяет работать в реальном масштабе времени. Кроме того, он использует такие ИТ-сервисы как облачное хранение и аналитика данных.

Прежние средства мониторинга базировались на ПК, позволяли собирать и представлять ограниченный объем данных и в основном давали возможность лишь реагировать на ситуацию в зависимости от интерпретации полученной информации. Цифровой удаленный мониторинг снимает эти ограничения.

Кто владеет информацией…


На мониторинг ЦОД сегодня влияют следующие тенденции: производительные и экономичные встраиваемые системы, кибербезопасность, облачные вычисления, аналитика больших данных, мобильные вычисления, машинное обучение.

Встраиваемые системы применяются практически во всем оборудовании ЦОД, включая системы охлаждения, ИБП, ПДУ, чиллеры и пр., управляя его работой. Именно они дают данные для мониторинга. За последние годы эти системы были существенно усовершенствованы в плане вычислительных и коммуникационных возможностей, хранения данных. При этом они стали дешевле. В результате применяемые в ЦОД устройства генерируют намного больше данных — как минимум втрое больше, чем еще десятилетие назад.

8fb61e30754ab47304236d47150a2f8a.jpg

Чем больше данных — тем больше они несут полезной информации.

Вместе с тем все более серьезной проблемой становится кибербезопасность. И это касается не только уязвимости ИТ оборудования, но и инфраструктурных систем ЦОД. Цифровой удаленный мониторинг и другие облачные сервисы должны изначально учитывать эти риски, начиная с этапа разработки и заканчивая политиками безопасности. Обычно в качестве точки входа в сеть используется шлюз (как правило, программный), и все устройства работают через него.

3aacfa7b2ed5bac922ba39b3645230e8.png

Рекомендуемая архитектура цифрового мониторинга.

Облака — хорошо масштабируемый метод хранения и обработки данных. Именно облачные вычисления — основа сервисов удаленного мониторинга. Такие сервисы как предиктивная аналитика и машинное обучение могут функционировать в облаке, раскрывая потенциал удаленного мониторинга ЦОД и наделяя его более ценными возможностями.

b7129a54c9c1166d50c9929aa7745d7f.jpg

С помощью машинного обучения можно, например, моделировать PUE очень сложного ЦОД наподобие дата-центра Goggle.

Аналитика больших данных может показаться экзотикой, но уже сегодня применяется в таких сервисах как превентивное обслуживание и планирование мощности. Необходимость в ней возникает, когда объемы данных вырастают до петабайтных величин, они становятся неструктурированными или требуют обработки в реальном времени. С аналитикой данных связаны методы машинного обучения, позволяющие строить прогнозы на основе ранее полученных результатов.

0be949d7e77633ff6193dd9517d71014.png

Автоматизация и мобильные приложения облегчают труд администраторов ЦОД и позволяет делать больше меньшими силами.

Не утонуть в море данных


В условиях растущего объема данных и информационного потока администраторам ЦОД становится все труднее принимать верные решения. Вот лишь некоторые из проблем:
  • Множество сообщений от одного и того же устройства в тех случаях, когда достаточно одного. Избыточная информация вызывает усталость оператора, и в итоге будет игнорироваться.
  • Для каждого устройства электропитания или охлаждения обычно предусмотрены свои средства управления. Отсутствие унифицированной платформы мониторинга и стандартной архитектуры усложняет эксплуатацию ЦОД, где персонала и без того часто не хватает.
  • Усложняется эскалация проблемы и передача ее соответствующему специалисту.

93cfd814ebceb387754f6207119425fc.png

Унифицированная платформа мониторинга упрощает задачи выявления и устранение проблем.

Служба цифрового удаленного мониторинга помогает преодолеть эти проблемы и обеспечить следующие преимущества:

  • Сокращение времени простоя/восстановления.
  • Оптимизация операций.
  • Снижение стоимости поддержки и обcлуживания оборудования.
  • Повышение энергоэффективности.
  • Улучшение масштабируемости.

Центр мониторинга


Задача центров мониторинга — снижение риска простоя за счет выявления и устранения одной ситуации прежде, чем она повлечет другую. В данном контексте служба цифрового удаленного мониторинга должна отвечать следующим требованиям:
fc191ee075423ae7224a96971c83220f.png

Сетевой операционный центр (NOC). В нем работают эксперты по поддержке ЦОД.
  • Эксперты NOC, диагностирующие инциденты в ЦОД, должны иметь подготовку в области информационной безопасности и обширный опыт. Анализ и документирование инцидентов снижает вероятность ошибок в будущем.
  • Любая система цифрового дистанционного мониторинга должна предусматривать документирование всех инцидентов.
  • Сервис должен сокращать время устранения проблемы с помощью тревожных сообщений (alarm), удаленного устранения неполадок и прозрачности жизненного цикла устройства. Руководить устранением неполадок должны эксперты, которые мониторят центр данных в режиме 7×24.
  • Эти же эксперты должны иметь список контактов на случай критичных событий. Хорошо, если данный список постоянно актуализируется в мобильном приложении.
  • Знание состояния всех устройств повышает шансы быстро устранить проблему или хотя бы понять ее причину.  
  • Чтобы обслуживающему персоналу реже приходилось копаться с оборудованием, полезно использовать предиктивную аналитику и удаленную диагностику.

33e077b12d44480f73555f32bda7d92c.jpg

Сервисный инженер должен знать, что именно ему потребуется заменить или исправить, чтобы не выезжать на объект повторно.

Какой должна быть служба удаленного цифрового мониторинга?


Следующие требования помогут службе удаленного цифрового мониторинга повысить эффективность работы и помогут ее сотрудникам сконцентрироваться на наиболее важных задачах.
  • Мобильное приложение может автоматически генерировать заявку на устранение неисправности (trouble ticket). Это позволит сэкономить время и обойтись без звонков в службу поддержки, объясняя ситуацию по нескольку раз разным специалистам.
    b187ab5e564efbb5c9fab9f537dd4391.png

    Мобильное приложение позволит менеджерам и администраторам ЦОД немедленно получить доступ к данным о состоянии дата-центра из любого места в и любое время.

Полезными могут быть также чаты, мессенджеры и пр. Чаты и мессенджеры не только помогают работать в команде, но и быстро связываться с экспертами в NOC.

Быстрое включение в работу означает, что в течение примерно 30 минут вы можете установить шлюз, задать автоматическое обнаружения устройств, зарегистрировать программное обеспечение, настроить приложение и начать мониторинг центра данных.

Задавать все подлежащие мониторингу устройства вручную — значит терять много времени. Это также увеличивает вероятность ошибок. Цифровая система мониторинга для автоматического обнаружения критичных для инфраструктуры устройств использует протокол (SNMP). Однако устройства Modbus TCP обычно автоматически не распознаются — нужен файл определений (Device Definition File, DDF). Как правило, шлюзы сканируют заданный диапазон IP-адресов, распознают соответствующие устройства и представляют эти данные пользователю.

События обрабатываются по приоритетам — первыми самые критичные. Такая практика снижает нагрузку на операторов ЦОД, которые знают, что эксперты NOC будут предупреждены и разберутся в ситуации, когда возникает сразу несколько событий.

Анализ корреляции и причин событий позволяет оценить множественные сигналы тревоги, свести к минимуму возможные причины и предложить решения. Этот процесс корреляции может осуществляться экспертами NOC или реализовываться как комбинация машинного обучения и экспертных оценок.

Консолидация тревожных сообщений превращает несколько сообщений с одного устройства в один инцидент. Это позволит не тратить время на несколько идентичных сообщений. Более того, для инцидента можно автоматически генерировать заявку на устранение неисправности, информировать о том, кто сейчас данным вопросом занимается и как долго, что не текущий момент уже сделано, отслеживать ход работ до окончательного разрешения.

Контекст тревожных сообщений может содержать такие полезные сведения как источник информации (например, номер стойки), каких систем она касается, что именно следует проверить. Всю эту информацию можно получить в мобильном приложении.

Каждый, кто пытался отыскать решение проблемы в интернете, наверняка знает, какое количество постов от разных пользователей приходится изучать, чтобы найти нужный ответ. Такой «краудсорсинг» отнимает очень много времени. Сервисы удаленного цифрового мониторинга следует дополнять собственными онлайновыми сообществами.

85ed5fcd9a97091ea532cf65b0ffb4a4.jpg

К ситуации простоя обычно приводит не одно событие, а их последовательность.

Энергоэффективность


Чем большее число устройств охватывает мониторинг, там больше возможностей для улучшения энергоэффективности ЦОД. Однако, чтобы сделать полезные выводы об эффективности ЦОД, нужно, как минимум, измерять нагрузку на выходе ИБП. Не зная базовых значений потребляемой ИТ-оборудованием мощности, невозможно определить потребности в его охлаждении. Например, если чиллер начал потреблять больше энергии, не ясно, это проблема чиллера или следствие увеличения ИТ-нагрузки. Располагая более полными данными, можно сравнить общую потребляемую всеми устройствами мощность и параметры охлаждения, выявить аномалии.
40cf40add98f14a3cf237e19f0f38723.png

Коэффициент энергоэффективности PUE позволяет количественно оценить избыточные мощности при данной ИТ-нагрузке.

Еще более эффективный метод — измерение PUE в реальном времени. При правильной реализации подхода можно получать отчеты о тенденциях изменения энергоэффективности и генерировать сообщения при изменении условий. Более того, эффективная система позволяет выявлять источники проблем и корректировать ситуацию. Мониторинг в этом случае может осуществлять персонал NOC.

f07ebefed939d82c0f78500c8114587f.png
Мониторинг PUE в реальном времени.

Масштабируемость


Масштабируемость — это способность системы удаленного цифрового мониторинга контролировать увеличивающееся число устройств (узлов). В зависимости от архитектуры системы, это могут быть тысячи устройств. Для небольших ЦОД с ИТ-нагрузкой до 500 кВт масштабируемость обычно проблемы не представляет, в отличие от крупных ЦОД, где число устройств может достигать сотен тысяч, а показания снимаются каждые несколько секунд.

В этом случае система мониторинга должна использовать горизонтально масштабируемую облачную архитектуру. Облачный сервис позволяет автоматически добавлять вычислительные узлы для обработки дополнительных данных. Перспективно направление — технологии интернета вещей (IoT).

Новые подходы к эксплуатации


В будущем ЦОД гораздо меньше будут зависеть от «человеческого фактора» — возможных ошибок. Поможет в этом автоматизация и машинное обучение. Чем больше собирается данных о причинах простоя, тем лучше система мониторинга сможет предсказывать вероятность простоя и рекомендовать шаги для его предотвращения.
3978e9fe868121bc02d3009df58948df.jpg

Эффективность эксплуатации ЦОД можно повысить за счет более точных моделей и накопления данных по фактическим операциям разных дата-центров.

Модель ЦОД, использующая машинное обучение, будет располагать достаточной информацией для точной настройки системы охлаждения и минимизации потребляемой мощности. Моделирование позволит также прогнозировать потребление электроэнергии.

Через мобильное приложение администратор ЦОД будет получать уведомление, если что-то идет не так, видеть, какие шаги он должен выполнить, чтобы скорректировать ситуацию. В более сложных процедурах можно задействовать технологии виртуальной реальности.

Сбор разнообразных данных позволит перейти в ЦОД от планового обслуживания к ситуационному. Многочисленные сенсоры и алгоритмы помогут предсказывать отказы компонентов, сделать генерируемые сообщения более понятными и, в конечном счете, сократить затраты на обслуживание. А аналитика больших данных позволит производителям повысить надежность выпускаемых компонентов.

335ccb3cebec48ad136a8ee4f3e0186d.jpg

Служба цифрового удаленного мониторинга будет автоматически генерировать наряды на выполнение работ инженерами по эксплуатации.

Системы жизнеобеспечения дата-центра состоят из сложного оборудования и требуют особого внимания. Это системы холодоснабжения и кондиционирования, пожаротушения, электроснабжения, телекоммуникации и структурированные кабельные сети. В ЦОД, построенном в соответствии с требованиями Tier III, обслуживание или ремонт любого элемента инфраструктуры можно вести без остановки работы ЦОД и без снижения рабочей мощности: все оборудование зарезервировано по системе N+1, что позволяет говорить о доступности объекта на уровне 99,982%.

e1b9f0c90acc9a5c9dc657402c0bf0e8.jpg

В конечном счете все это выливается в уменьшении времени простоя ЦОД и повышение уровня его надежности.

Система мониторинга ЦОД помогает повышать эффективность эксплуатации, обеспечивая информационную поддержку для ИТ-службы. Задача современной системы мониторинга — не просто в фиксации нештатной ситуации и оперативном оповещении о ней, а в возможности проактивного наблюдения, аналитики, позволяющей предотвращать инциденты. Например, если произошел сбой компонента оборудования, такая система сразу автоматически инициирует процесс его замены, вплоть до заявки на приобретение нового, если это необходимо. Служба цифрового удаленного мониторинга позволит использовать ценные возможности аналитики и ситуационного обслуживания на еще более высоком уровне. Это будущее наступит очень быстро.

Комментарии (0)

© Habrahabr.ru