«SRE: Observability» — старт потока 30 марта16.03.2023 17:16

30 марта стартует курс «SRE: Observability» для всех, кто хочет научиться агрегировать SLO/SLI в одну или несколько высокоуровневых метрик. Курс подойдет всем, кто хочет предотвращать сбои в работе еще до жалоб пользователей и бизнеса.

После обучения вы сможете работать с единым стандартом сбора и построения пирамиды метрик, который масштабируется на любые команды.

Зачем вам observability

Observability — показатель того, насколько легко мы можем понять внутреннее состояние системы по её внешним проявлениям. Если мониторинг — это действие, то observability — это свойство системы. Когда наши ИТ-системы и приложения не дают нам заглянуть внутрь, никакой мониторинг тут не поможет.

Руководители должны понимать, что observability — это не просто очередной хит сезона. Это совершенно новый подход к мониторингу и контролю производительности приложения. К современным легко масштабируемым системам уже нельзя просто прикурить мониторинг. Нам нужны современные методы инструментирования, чтобы лучше понимать свойства приложения и его производительность на протяжении всего жизненного цикла. Кроме того:

Observability повышает ROI. Команда быстрее находит и исправляет причины падения производительности, сервисы реже простаивают, клиенты не жалуются, что повышает доходы и лояльность. Плюс у инженеров высвобождается время на другие задачи.
Observability вписывается в любые системы. Обычно мы говорим о observability в контексте облачных микросервисных приложений, но по сути её можно применить к любой ИТ-среде или архитектуре.
Observability — это не синоним мониторинга. Да, оба понятия связаны с пониманием происходящего в системе, но мониторинг показывает сам факт проблемы, а observability помогает понять, что пошло не так и почему это случилось.

Начните прямо сейчас

Не думайте, что только избранные ИТ-гиганты могут позволить себе observability. Она доступна и полезна абсолютно всем компаниям во всех отраслях. Было бы ошибкой десять лет ждать развития облачных технологий, прежде чем решиться использовать сервисы в публичных облаках. То же самое можно сказать и про observability.

На курсе вы познакомитесь с единым стандартом сбора и построения пирамиды метрик, который можно будет масштабировать на разные команды. Вы научитесь видеть разницу, когда упало, потому что что-то не работает, а когда дело в низком органическом трафике и сезонности.

По результатам обучения у вас будет настроенный на вашем микросервисном проекте мониторинг: поднята обвязка Graphite+Grafana с настроенным мониторингом инфраструктуры, приложения и бизнес показателей. Также для всех этих метрик вы настроите алерты, которые будут приходить вашей команде поддержки в случае аварии или серьезной деградации сервиса.

После обучения вы узнаете:

— как увидеть инцидент в зачатке на графике и по алерту, и предотвратить панику и стресс в моменте;

— как увидеть и оценить результаты работы над надежностью;

— как договориться с бизнесом, что делать: выкатывать фичи или работать над надежностью;

— как строить понятные разработке и бизнесу метрики, если у тебя 100 микросервисов и продакт каждого считает, что он самый важный;

— как объяснить руководителю, зачем собирать бизнес-метрики приложения, и сколько он теряет в момент инцидента

Курс «SRE: Observability» стартует 30 марта. Вас ждут лекции со спикером и практика на специально разработанном приложении по бронированию билетов в кинотеатрах, состоящем из нескольких микросервисов. Обучение будет полезно инженерам с базовыми знаниями SRE-практик, командам, которым нужно наладить внутренние процессы и научиться настраивать мониторинг, а также компаниям, где уже внедрены error budget и SLO, но эти процессы не отработаны до конца.

Посмотрите программу и оплатите участие, пока есть места: slurm.club/3ZSHXhQ