Про Whitebox и Blackbox из курса SRE: Observability, который стартует 24 июля17.07.2023 15:01

Спикеры Слёрма объясняют абстрактные вещи с помощью простых жизненных примеров. Так Whitebox и Blackbox подходы к мониторингу на курсе «SRE: Observability» рассматривают на примере очереди в банк.

Итак, очередь — это реальная проблема для бизнеса, потому что клиенты злятся. Чтобы её решить, нужно выяснить причины. Попробуем мониторить очередь в банк с помощью этих двух подходов.

При Blackbox-подходе мы наблюдаем внешние проявления системы:

1. Размер очереди.

2. Скорость продвижения людей в ней.

Что нам это даёт? Мы удостоверились, что проблема существует, оценили масштаб.

При WhiteBox-подходе мы мониторим очередь изнутри. То есть наблюдаем:

1. Типы обращений очереди, тематика талончиков.

2. Количество работающих окошек.

3. Количество людей в каждое окошко.

4. Количество вышедших на смену операторов.

Во втором случае у нас больше метрик и они достаточно полезные для понимания причин проблемы. Но нужно помнить, что эти метрики в отрыве от общего контекста не всегда говорят о проблеме. Допустим, если закрылись 3 окошка из 5. Это уже проблема или ещё нет? Нет, если из-за этого ещё не образовалась очередь. Если уже образовалась, то проблема.

☝️ Если вы хотите научиться сочетать Blackbox и Whitebox подходы, видeть причины и следствия и повысить надежность системы, приходите на курс SRE: Observability.

Что в программе

Курс состоит из трёх основных блоков:

1️⃣ Мониторинг. Научимся работать с основными Golden Signals SRE и узнаем, как ими обвесить любой сервис для эффективного мониторинга и оповещения.

✔️ Настроим Golden Signals и посмотрим, как они работают в разрезе реальных приложений.

✔️ Поработаем с разными инфраструктурными паттернами.

✔️ Выясним, как их лучше покрывать метриками.

2️⃣ Алертинг. Настроим систему алертов, которая обеспечит быстрое реагирование на аварии без отвлекающих уведомлений. Научимся настраивать алерты, учитывая anomaly detection: сезонность, тенденции рынка и другие внешние условия. Мастер-класс поможет понять и научиться использовать методы математической статистики при работе с метриками.

✔️ Построим сложные сценарии системы алертов.

✔️ Научимся настраивать Silence periods для алертов так, чтобы они не спамили в момент работы на инциденте.

✔️ Разберем примеры и практики того, как применять методы математической статистики.

3️⃣ Мониторинг множества сервисов. Научимся приоритизировать таски даже в ситуациях, когда продакт каждого из 100 сервисов говорит, что их задача самая критичная.

✔️ Поработаем с прозрачными бизнес-метриками надежности приложения.

✔️ Разберём аспекты использования приложения пользователями для того, чтобы иметь легко измеряемую надежность через стартовые точки.

✔️ Узнаем, как построить систему метрик для множества сервисов и понимать, что каждый сервис надёжен по отдельности.

Что понадобится для прохождения курса

Этот курс для тех, кто уже имеет базовые знания о SRE-практиках, у кого уже внедрены error budget и SLO, но эти процессы не отработаны до конца. А также для тех, кто хочет повысить отказоустойчивость системы.

Будет хорошо, если у вас есть:

✅ навыки программирования (Python),

✅ навыки работы с Linux,

✅ опыт работы с Kubernetes,

✅ опыт настройки мониторинга в Prometheus, Grafana и др.

Новый поток «SRE: Observability» стартует 24 июля. Вас ждут вебинары со спикером и практика на специально разработанном приложении по бронированию билетов в кинотеатрах, состоящем из нескольких микросервисов.

Цена — 45 000 ₽