В погоне за надежностью: SRE-практики от профессионалов на курсах Слёрма

Ещё пять 6–7 лет назад многие знакомились с SRE-практиками по книгам Google. Сейчас крупные компании имеют свой собственный опыт применения этих практик для повышения надежности инфраструктуры. Изучить их быстро, получить ответы на вопросы и первые навыки можно на курсах Слёрма. Мы собрали опыт SRE-инженеров Google, Booking, Databricks, TangoMe, Яндекс, Ecommpay, Финам и сделали курс «Site Reliability Engineering: data-driven подход к управлению надежностью систем». Рассказываем, чему можно научиться на этом курсе.

409693e999750937692d7aae67ba61e7.png

Теория и практика SRE

В теоретической части курса мы познакомимся с практиками и теми задачами, которые должны стоять перед SRE в компании. Эти знания помогут составить план действий по внедрению SRE-подхода и наладить коммуникацию с бизнесом.

Вот чему мы учим:

— формулировать SLO, SLI, SLA для сайта, разрабатывать архитектуру и инфраструктуру, которая их обеспечит;

— настраивать мониторинг и alerting сайта;

— понимать, как повышать устойчивость, что такое error budget, организовать эффективную практику тестирования, управления прерываниями и операционной нагрузкой;

— анализировать причины возникновения инцидентов;

— улучшать мониторинг, менять архитектуру и автоматизировать процессы;

— организовывать надёжные коммуникации между сервисами retry, timeout, circuit breaker.

В результате вы сможете организовать пожарную команду в случае инцидента, раздать роли коллегам и выступить лидером.

SRE-практики помогают:

— снизить процент отказов сервиса;
— повысить скорость реагирования на отказы;
— снизить риски при выкате новых фич;
— увеличить скорость разработки.

Как проходит курс

В курсе будут:
Теоретические лекции. На них нужно выделять 2–3 часа в неделю.
АМА-сессии со спикерами. Они будут еженедельно. Вы сможете получить ответы на свои вопросы и предметно обсудить применение SRE-практик в вашей компании.
Практикумы. Вы сможете поработать на стендах, как индивидуально, так и в команде.

Практика будет проходить на учебном микросервисном приложении по бронированию сеансов в кинотеатре. Мы сформулируем показатели SLO, SLI, SLA для этого сайта, разработаем архитектуру и инфраструктуру, которая их обеспечит, настроим мониторинг и алертинг, отработаем несколько инцидентов.

Ознакомиться с полной программой можно на нашем сайте.

Как попасть на курс

Базовая цена участия в потоке — 90 000 ₽. Оставить заявку.

Есть способы сэкономить:

  1. Оформить подписку Ян. Она на три месяца дает доступ к 20 видеокурсам и потокам. Подробности можно посмотреть здесь.

  2. Прийти на поток командой. Для команд от 5-ти человек цена будет составлять 65 000 ₽ за участника. Оставить заявку на участие команды можно в конце этого лендинга.

  3. Взять комплект курсов «Мониторинг в Grafana», «SRE: data-driven подход управлению надежностью систем» и «SRE: Observability». Ознакомиться с комплектом можно в самом конце этого лендинга.

Если всё ещё сомневаетесь, попробуйте бесплатные лекции по метрикам SLO, SLI, SLA. Доступ к ним можно получить в конце этого лендинга.

До встречи на курсе!

© Habrahabr.ru