tokeon.ru: почему SRE?

8da42b4fc5df52ea3a515bbfafd5c166

Из истории вопроса

Когда-то давным-давно не было никакой технической поддержки и была одна только разработка…

И никто, кроме разработчиков, толком не знал как работает продукт. И никто, кроме разработчиков, не мог ответить на вопросы о продукте.

Но когда разработчики отвечали на вопросы о продукте — они не могли ничего разрабатывать. И теряли навыки. И продукт не развивался. И будили разработчиков по ночам, если продукт ломался. И не нравилось это разработчикам.

Так образовалась техническая поддержка. Специальные люди, которые поддерживали пользователей продукта, помогали с внедрением, прибегали тушить пожары, когда всё шло совсем не так, как должно было.

Классическая поддержка

Чтобы навести в работе технической поддержки порядок, придумали стандарт ITIL, внутри него расписали разные уровни поддержки, описали контракт поддержки через SLA.

Так образовалась классическая поддержка, для работы которой надо:

  • Постоянно актуальное описание продукта и процедур по обслуживанию

  • Возможность эскалации задач в разработку

  • Строгое следование процедурам

И почти сразу возник конфликт между поддержкой и разработкой. Конфликт этот заложен в самом подходе и формируется он так:

  • Разработчики: в поддержке работают глупые люди, которые не понимают что мы делаем, а поэтому постоянно требуют от нас какие-то идиотские инструкции

  • Поддержка: разработчики постоянно делают всякую хрень, а нам приходится расхлёбывать?

  • Руководство: зачем нужна поддержка и чем они там занимаются? И занимаются ли вообще, а то может лучше их там всех уволить?  

Любители решать конфликты до сих пор работают в этой концепции и между ними разворачиваются постоянные драмы, в которых конфликтующие тратят свои эмоциональные силы. Оставим их и позволим времени разобраться с этой концепцией.


SRE

Концепция SRE — это следующее поколение методов для организации поддержки. В ней можно выделить тезисы:

Ключевым показателем качества работы SRE является надежность сервиса

Получается, что KPI для SRE значим для бизнеса и его легко измерить

Инженеры SRE должны тратить не более 50% своего времени на операционные задачи

Отсюда явно видно, решение инцидентов больше не основная задача поддержки. Основная задача — это превентивные меры, направленные на повышение надежности

Инженеры SRE могут быть взаимозаменяемы с DevOps

И тогда поддержка становится гораздо ближе к разработчикам, по сути участвуя в развертывании и управлении надежностью на самых ранних стадиях.

Выводы

Концепция SRE — это следующая ступень развития технической поддержки. Сама концепция значительно расширяет роль технической поддержки, переводя её из разряда эксплуатанта в роль участника развития инфраструктуры и продукта.

Руководство получает внятное объяснение зачем нужна эта команда и как измерить качество её работы. А бизнес видит чёткое соответствие верхнеуровневым бизнес-целям, ведь качественный продукт → надежный продукт.

© Habrahabr.ru