О мониторинге замолвите слово

9dc55dad507e6e35bcdb106f50291ac7.png

Уже завтра, 18 января, стартует «Школа мониторинга». Чем-то она будет похожа на встречу одноклассников после насыщенных каникул: рассказы о жизненных ситуациях тесно сплетутся с советами и интересными наблюдениями. Так во второй день Иван Кондратьев, технический директор Core24/7, расскажет, как команде удалось преодолеть угнетающую силу алертов и выйти на бодрый рабочий график с помощью Grafana OnCall. 

Чем занимается Core24/7 и зачем вам мониторинг?  

Мы являемся сертифицированным провайдером Kubernetes, Gitlab, Redhat. Предоставляем DevOps/SRE-услуги на аутсорсе и одновременно обслуживаем более 1000 различных систем. Мы наблюдаем за приложениями в режиме реального времени, благодаря чему системы наших клиентов всегда доступны и работают без перебоев. 

Проблема с алертами: что было, почему это было проблемой и как удалось её решить

Проблем было достаточно много: бывали ситуации, когда дежурный просыпался и обнаруживал 1000 пропущенных алертов в чатике. Уведомления становятся шумом, который мешает, а не помогает найти проблему в инфраструктуре. Мы уставали, выгорали, иногда даже возникало стойкое отвращение к работе.

Хотелось сократить количество алертов и выстроить удобный процесс дежурных ротаций. Команда проанализировала 3 инструмента, и, увы — они нам не подошли. Все изменилось, когда в прошлом году Grafana OnСall релизнула свой код в opensource. Мы изучили инструмент и осознали — это именно то, что команда искала.

Нам удалось сократили количество алертов в 2–3 раза, создать удобный график дежурств, стандартизировать формат алертов, выстроить различные цепочки эскалаций от уведомления дежурному/тимлиду до звонка СТО. 

А зачем лично тебе участвовать в «Школе»?

Хочу поддержать «наболевшие» темы: как выстроить правильный мониторинг и реакцию дежурных на инциденты/алерты. Чем больше людей узнают, что важно настраивать мониторинг, тем лучше для всех

© Habrahabr.ru