SRE: data-driven подход к управлению надежностью систем

173854725a6b0f31fe3fb4394d78aad7.png

С 7 по 9 октября Слёрм проведет пятый онлайн-интенсив SRE: data-driven подход к управлению надёжностью систем, на который вы можете прийти самостоятельно и мы подберем группу или же вместе со своей командой. 

SRE подход — это методология работы с цифровыми продуктами. Её задача — через улучшение процессов и автоматизацию уменьшить время простоя и количество ошибок сервиса, делая бизнес более предсказуемым и устойчивым.

На нашем интенсиве вы сможете получить представление, чем занимаются SRE-инженеры в реальности и с какими вызовами сталкиваются. Для этого на интенсиве будет немного теории, опытные спикеры и специально написанное приложение для покупки билетов в кинотеатрах, где вы отработаете практические кейсы. 

В этой статье мы рассказываем, какие задачи вы научитесь решать за три дня обучения, и как может улучшиться работа вашей системы после.

Что будет

Теория

Вы познакомитесь с теорией SRE, научитесь настраивать мониторинг и алёртинг.  Расскажем про метрики SLO, SLI, SLA и как они соотносятся с требованиями бизнеса. Поделимся Best Practices по настройке мониторинга.

Практика на специально написанном предложении

Наше приложение состоит из нескольких микросервисов. Оно агрегирует данные о сеансах, ценах и свободных местах со всех кинотеатров, показывает анонсы фильмов, дает выбрать кинотеатр, сеанс, зал и место, забронировать и оплатить билеты. Мы сформулируем показатели SLO, SLI, SLA для этого сайта, разработаем архитектуру, инфраструктуру, настроим мониторинг и алертинг.

Вам или вашей команде предстоит разобраться с несколькими кейсами. Например, произошла авария. Сервис обработки платежей лег. Как действовать, чтобы восстановить работоспособность в минимальные сроки? Нужно организовать работу группы по ликвидации аварии и научиться применять подходы к сайту с точки зрения SRE.

На интенсиве вы:

  • узнаете, как снизить ущерб от отказов в будущем;

  • внедрите правки прямо в прод;

  • узнаете, как решать конкретные проблемы, связанные с надежностью сервиса;

  • поймете, какие метрики собирать и как это делать правильно;

  • научитесь быстро поднимать продакшн силами команды.

Результаты внедрения SRE-подхода

Интенсив помогает примерить на себя роль SRE-инженера. Вы сможете выбрать подходящие для вашей команды практики и внедрить их в компании. Участники интенсива отмечают следующие результаты внедрения SRE-подхода:

  • снижение процента отказов сервиса

  • повышение скорости реагирования на отказы

  • снижение рисков при выкате новых фич

  • увеличение скорости разработки

Почему наш интенсив?

Программа сформирована с участием SRE-инженеров из зарубежных и российских компаний, таких как: Google, Booking, Databricks, TangoMe, Яндекс, Ecommpay, Leroy Merlin, Финам. С каждым практикумом программа дорабатывалась. Сейчас она не имеет аналогов на российском рынке за счет большого количества практики, экспертности спикеров и возможности внедрить инструменты SRE сразу в продакшн.

По окончании интенсива мы предоставляем консультации и фасилитации по определению бизнес-метрик конкретно для вашей компании, а также помощь в формировании и развитии улучшения этих метрик.

Если у вас остались сомнения, вы можете оставить заявку нашему менеджеру. Мы подскажем, нужен интенсив или нет конкретно в вашем случае или в вашей компании.

Узнать подробнее: https://slurm.club/3BEsXdM

© Habrahabr.ru