Универсальный мониторинг — Отстой

habr.png

Возможно Вы скажете, что я не понимаю ничего в zabbix или nagios, а потому бросаюсь такими громкими фразами, и только за это влепите мне минус в карму. Я прошу Вас прежде чем это сделать ответить на вопрос. Какую задачу решает администратор сети в 2к устройств L2 разнесённую географически на площадь города.

Было бы здорово получить ответ в виде коммента. Ниже будет мое видение ситуации.
Собственно на эти размышления меня натолкнуло чтение книги Дж. Паттона «Пользовательские истории, Искусство гибкой разработки ПО», до этого я злился и смутно представлял как должно это работать. Теперь же начал складываться сюжет и начнём мы его с пользовательских историй глазами нескольких участников процесса сопровождения и эксплуатации сети.

Администратор сети:


Моя работа начинается если мне прилетел отчёт о отказе узла связи (ну как-то не имею я привычки любоваться на няшные графики того как сеть работает, наверное я ущербный)

Зачем я туда лезу: мне нужно понять какой узел в моей трёхуровневой сети умер и мне не важно есть ли ведомые девайсы за точкой отказа.

Что я вижу:  — вижу пачку алертов, из которых один с повышенной привилегией — ага узел агрегации…

Случай с деградацией каналов связи отдельная история, Всем тем кто на себе знает про явление флуда после грозы жму руки)… точка отказа не известна, нужно выявить косвенные приметы, сработал loopdetect или storm control нагрузка на CPU или интерфейс полезла в пиковые значения.
В общем мне не нужны красивые графики, мне нужно работающее дерево коммутаторов и алерты которые точно прилетят, а ещё я не имею никакого желания знать про то, что ветка дерева коммутаторов отвалилась, Что я хочу видеть: мне нужен только узел до которого всё хорошо, а после плохо.

Что я собираюсь с делать с этой информацией: позвоню в городские электросети, затем отправлю техгруппу. Важно то чем быстрее я локализую проблему, тем быстрее можно будет принять меры по устранению.

Помогает мне в этом Zabbix? Конечно да, но избыточная информация и необходимость выписывать дерево через конфиг заббикса утомляют.

Техническая поддержка по телефону:


Моя работа начинается в момент поступления звонка от абонента. Я имею доступ к системе мониторинга и мне приходится просматривать события в zabbix чтоб понять с чем пришёл клиент и с какой стороны абонентского кабеля проблема.

Помогает мне Zabbix? конечно да, но мне нужен список отказов оборудования, и вот ещё момент, вы видели как быстро меняется этот список в моменты великого флуда…?

Мне было бы легче получая звонок иметь всю информацию о точке подключения абонента с точностью до порта и не тратить время на поиск.

Выездная техническая поддержка


Моя работа начинается в двух случаях, Администратор определил точку отказа и не может устранить причины удалённо, Техническая поддержка по телефону выявила неисправность «последней мили».

Помогает мне zabbiz? да, я могу по количеству отказавших узлов понять, что нужно заправить авто.

Мне было бы легче имей я оперативную информацию о моих манипуляциях на стороне клиента или отказавшем узле связи к примеру наличие ошибок на портах устройства до и после моих манипуляций и при этом желательно не таскать с собой ноут с консольным шнурком и не бегать от компьютера абонента к коммутатору.

Абонент


Мне всё равно была гроза, или зеленстрой пилит деревья, или электросети выключили половину города, я хочу знать что с моей услугой и когда её восстановят. Я хочу понимать что это проблема с моим маршрутизатором или оператор опять, и если меня не устроят сроки, я уйду к конкурентам…

Исходя из этих историй видно, что оперативность играет важную роль в услугах. Современный пользователь не хочет ждать и вникать в проблемы оператора, он хочет услугу.

Универсальный мониторинг в рассмотренных историях способен только дать вектор для дальнейшей работы, но не помогает решать задачи.

Это и привело меня к умозаключению, что универсальный мониторинг — отстой!

А каково Ваше мнение на этот счёт?

© Habrahabr.ru