Кого винить, если в ИТ что-то ломается?

Всегда найдется причина, почему что-то "полетело" в ИТ, да и власть имущие обычно находят, кого в этом обвинить – будь это сотрудник информационного центра, компания-изготовитель, системный интегратор или сторонний провайдер услуг, пишет Computerworld.

Виновника, как правило, можно определить по четким "следам", говорящим, что компонент был неправильно промаркирован или процесс не прошел модернизацию. Если таких "отпечатков" нет, инцидент мог произойти в результате недосмотра нескольких сторон. Но если исключить возможное падение метеорита, всегда найдется кто-то, кого можно обвинить в проблемах информационного центра.

Большинство перекладывают вину на сторонних сотрудников – на подрядчиков и вендоров, к тому же большой процент ошибок приписывается самим работникам информационного центра, считают эксперты Uptime Institute. Выводы компании по результатам исследования, которое она проводила с 1994 года, собирая данные от клиентов информационных центров, могут вызвать шквал критики, поскольку лишь немногие ИТ-операторы компаний и вендоры готовы с легкостью взять на себя всю вину.

Вендоров могут обвинять больше всех, потому что обычно именно они берут удар на себя, даже если понимают, что проблему просмотрели внутри самой компании. По словам Ахмада Мошири, ИТ-директора компании Emerson Network Power Liebert Services, вендор в таких случаях оказывается в весьма щекотливом положении и готов сам себе пустить пулю в лоб, потому что не хочет ставить своего клиента в сложное положение.

Многие менеджеры информационных центров, которые трудятся в разных отраслях, нередко по собственному желанию сообщают об аварийных ситуациях. В базе данных Uptime Institute зарегистрировано около 5 тыс. подобных случаев. Сюда относится любое событие, когда работа какого-то оборудования или компонента инфраструктуры не соответствует ожиданиям.

Данные Uptime показали, что в 2009 году 34% аварий произошло по вине операторов, в 2010 году этот показатель был на уровне 41%, а в прошлом году – 40%.

В 50-60% происшествий, произошедших за эти годы, были виновны третьи стороны – те, кто работает в информационных центрах заказчика или поставляет туда оборудование, включая производителей, вендоров, представителей фабрик, монтажников и интеграторов. Каждый год 5-8% происшествий связаны с саботажами, внешними пожарами, арендаторами на объекте совместного пользования и другими нарушениями. Около 10% всех вышеуказанных происшествий привели к сбоям в работе, начиная с потери мощности системы и заканчивая выходом из строя информационных центров.

Данные Uptime показывают, что за большую часть (60%) подобных случаев, включая простой оборудования и потерю информации, несет ответственность внутренний персонал компании.

И несмотря на то, что персонал компании может взять вину на себя, по мнению Хэнка Сидра из Uptime, "шкурки от бананов", на которых и "поскальзываются" операторы, зачастую остаются от проектировочных, производственных и монтажных процессов. Например, инженер информационного центра компании Trinity Health Дэвид Филе рассказал об одном случае, когда вендор противопожарной системы выполнял профилактическое техобслуживание системы пожаротушения в их информационном центре, вызванное аварийным отключением питания. Как правило, никаких проблем из-за этого не происходит, но ошибка в конструкции контура АОП пропустила сигнал, что и привело к перебоям в работе. Оказалось, что перепускной контур АОП был разработан не в соответствии со схемой застройки, поскольку сам центр был построен годами раньше. Филе полагает, что проекты и действия инженеров, архитекторов и монтажных организаций имеют скрытое воздействие на эксплуатацию еще довольно длительное время после постройки. Он уверен, что внешние силы могут создать и разрушить информационный центр так же легко, как и внутренние. И риски, связанные с этим, заметно выросли, поскольку информационные центры в большей степени полагаются на внешних поставщиков.

К тому же поставщики электрооборудования зачастую не понимают специальных требований информационных центров. Например, зачем надо подавать на стойки питание с избыточностью.

Как рассказывает Джефф Педерсон из Kroll Ontrack, проблемы, связанные с потерей данных, возникают как по вине самого персонала компании, так и по вине сторонних провайдеров. Но попытки обслуживающего персонала запустить оборудование в эксплуатацию тоже могут привести к множеству аварийных ситуаций. Единственная цель некоторых специалистов по обслуживанию - заставить оборудование заработать, они считают необязательным защищать информацию, которая имеется у заказчика. В итоге от пользователей начинают поступать жалобы о том, что система, конечно, заработала, но вся информация пропала в никуда.

Потеря информации и перебои в работе – это самое худшее, с чем могут столкнуться информационные центры. Ежегодно эксперты Uptime сообщали о двух десятках подобных аварий, за прошлый год их количество снизилось до семи. Снижение количества аварий свидетельствует о том, что с 2008 года рост установки оборудования в информационных центрах тоже замедлился. К тому же процессам и процедурам стало уделяться больше внимания.

Мошири из компании Emmerson считает, что производственные и процедурные вопросы являются главной причиной возникающих проблем, особенно если в деле участвует множество вендоров и необходима высокая степень согласованности между ними. Очень часто важная информация, например, схемы электропитания или даже физическое расположение оборудования, может оказаться устаревшим или в неполной комплектации. Еще одной проблемой Мошири назвал техническое обслуживание. Менеджеры производства порой не обращают особого внимания на рекомендации производителя оборудования, к примеру, что техобслуживание на каком-то определенном устройстве следует проводить дважды в год.

Президент MTechnology Стив Ферфакс использует для ИТ-оборудования модель вероятной оценки рисков (ВОР), применяемую в ядерной отрасли. По данным исследования, чрезмерное техническое обслуживание тоже является источником крупных проблем. В этом методе используются все данные, которые известны об отдельных компонентах - они соединяются в математической модели, представляющей, как работает вся система, вне зависимости от того, атомная ли это электростанция или информационный центр.

Ферфакс отметил: его математические модели показывают, что количество техобслуживания в информационных центрах "в 10 раз превышает норму" и является причиной длительных простоев оборудования. По его словам, "безделье наряду с прекрасно функционирующим оборудованием – чрезвычайно прибыльное дело". Чтобы информационные центры были повышенного уровня надежности и ломались так же нечасто, как и самолеты, он рекомендует обучать операторов своих информационных центров, как и летчиков реактивных самолетов, на тренажерах. К тому же следует разработать четкие критерии качества технического обслуживания. Как говорит Ферфакс, "больше не всегда лучше, поскольку если вы проводите техобслуживание в самолете, это означает демонтаж, но если вы что-то демонтируете, то порой собрать заново не всегда получается так, как надо".

©  @Astera