Строим умную систему мониторинга с SRE: Observability

e0833a1e5355aaa51b4c078a74e6e3c5.jpg

14 марта стартует курс «SRE: Observability» для всех, кто хочет научиться агрегировать SLO/SLI в одну или несколько высокоуровневых метрик. Курс подойдет всем, кто хочет предотвращать сбои в работе еще до жалоб пользователей и бизнеса.

На курсе вы построите систему мониторинга приложений, состоящих из множества микросервисов. На практике научитесь работать с метриками, которые отражают требования бизнеса и стабильность системы одновременно.

Зачем внедрять observability

Observability (наблюдаемость) — это способность по выводу системы точно определить её состояние. С помощью observability, мы включаем в поле обзора больше компонентов приложения, от мобильного и веб-фронтэнда до инфраструктуры. 

Раньше пришлось бы собирать и анализировать информацию из многих источников — логи приложения, данные временных рядов и т. д. Сейчас системы устроены сложнее, и чтобы по-настоящему оценить опыт пользователя, мы должны анализировать данные в контексте того, как он использует и потребляет мобильные и веб-приложения.

О курсе

Мы предлагаем единый стандарт сбора и построения пирамиды метрик, который можно будет масштабировать на разные команды. Вы сможете определить, действительно ли упало, потому что не работает или дело в низком органическом трафике и сезонности.

По результату обучения вы получите настроенный на вашем микросервисном проекте мониторинг: будет поднята обвязка Graphite+Grafana с настроенным мониторингом инфраструктуры, приложения и бизнес показателей. Также для всех этих метрик вы настроите алерты, которые будут приходить вашей команде поддержки в случае аварии или серьезной деградации сервиса.

На какие вопросы поможет ответить курс

  • как увидеть инцидент в зачатке на графике и по алерту, и предотвратить панику и стресс в моменте;

  • как увидеть и оценить результаты работы над надежностью;

  • как договориться с бизнесом, что делать: выкатывать фичи или работать над надежностью;

  • как строить понятные разработке и бизнесу метрики, если у тебя 100 микросервисов и продакт каждого считает, что он самый важный;

  • как объяснить руководителю, зачем собирать бизнес-метрики приложения, и сколько он теряет в момент инцидента

Курс подойдет инженерам с базовыми знаниями SRE-практик, командам, которым нужно наладить внутренние процессы и научиться настраивать мониторинг, а также компаниям, где уже внедрены error budget и SLO, но эти процессы не отработаны до конца.

Программа

Мониторинг инфраструктуры: 14 марта 19:00

Научитесь работать с основными Golden Signals и в будущем знать, как ими обвесить любой переданный вам на поддержку сервис для эффективного мониторинга и оповещения.

Что делаем:

  • настраиваем Golden Signals для приложения;

  • обзор метрик Golden Signals в разрезе реальных приложений;

  • работа с разными инфраструктурными паттернами. Как лучше покрывать их метриками.

Алертинг: 16 марта 19:00

Вы настроите систему алертов, которая обеспечит быстрое реагирование на аварии без отвлекающих уведомлений. Учимся настраивать алерты учитывая anomaly detection: сезонность, тенденции рынка и другие внешние условия. Мастер-класс поможет понять и научиться использовать методы математической статистики при работе с метриками.

Что делаем:

  • строим систему алертов;

  • разбор сложных сценариев при построении системы алертов, построение бейзлайна;

  • учимся выбирать и настраивать Silence periods для алертов так, чтобы они не спамили в момент работы на инциденте;

  • опираясь на методы мат статистики определяем, что отклонение метрики значимо и действительноявляется аварией;

  • разбор примеров и практик того, как применять методы мат статистики на реальных проектах

Мониторинг множества сервисов: 21 марта и 19:00

Будем учиться приоритизировать таски даже в ситуациях, когда продакт каждого из 100 сервисов говорит, что их задача самая критичная.

Что делаем:

  • работа с прозрачными бизнес-метриками надежности приложения;

  • разбор аспектов использования приложения пользователями для того, чтобы иметь легко измеряемую надежность через стартовые точки;

  • узнаем, как построить систему метрик для множества сервисов и понимать, что каждый сервис надежен по отдельности.

✅ Спикер курса: Павел Лакосников,  Team Lead команды SLA в Авито

— Более 10 лет в разработке;

— Фанат метрик;

— Регулярный докладчик на конференциях и митапах;

Курс «SRE: Observability» стартует 14 марта. Вас ждут лекции со спикером и практика на специально разработанном приложении по бронированию билетов в кинотеатрах, состоящем из нескольких микросервисов. 

Оплатите участие по предзаказу за 25 000₽ до 14 февраля. После цена для участников будет 45 000₽. 

© Habrahabr.ru