Что мы читали в марте: пять необходимых книг для инженеров инфраструктуры06.04.2018 11:33

Мы в Skyeng понемногу строим свою библиотеку важных и полезных книг. Началось все с того, что своими списками в Фейсбуке поделились основатели компании (ссылки ниже), а теперь к ним присоединились и руководители направлений. В марте свой топ профессиональной литературы представила Надежда Рябцова, отвечающая за нашу IT инфраструктуру. Я попросил ее рассказать о каждой книге чуть подробнее — надеюсь, читателям Хабры этот список, дополненный четырьмя еженедельными рассылками, будет полезен.

Сперва — обещанные ссылки. Георгий Соловьев делится списком важных книг для предпринимателей, а Харитон Матвеев — для продакт-менеджеров.

Надежда Рябцова aka ladamalina — руководитель IT инфраструктуры Skyeng с 2016 года, пришла к нам из маленького (тогда) стартапа Delivery Club. В то время у нас работало всего 15 разработчиков, а сейчас ее отдел из шести работающих удаленно человек обслуживает 12 команд программистов.
Передаю ей слово.

Наших SRE инженеров не заставишь прочесть всё, так что я выбрала пять самых необходимых книг. Главное — осознать, что для поддержки бурного роста компании мы должны внедрять практики и строить новые процессы в отделе эксплуатации, которые буквально три-шесть месяцев назад были не нужны.

Practical Monitoring: Effective Strategies for the Real World
Must read для растущих стартапов, какого бы размера инфраструктура ни была. Объясняет философию мониторинга сервисов для компании и строительство каждого компонента. Большинство системных администраторов ставят Zabbix со сбором минимального набора метрик и алертингом на дефолтные пороги. У нас в Skyeng такой подход не работает, для каждого из более чем 50 проектов надо уметь выявлять проблемы на нескольких уровнях: показатели приложений, состояние железа, тренды и аномалии в бизнес-метриках. О метриках в каждом из наших продуктов заботятся аналитики, разработчики и девопсы.

Site Reliability Engineering: How Google Runs Production Systems
Если не ошибаюсь, эта книга — первая, где были хорошо систематизированы принципы SRE и описана роль инженера по надежности. Супер доступно на практических примерах рассказывается, как построены в Google процессы управления инцидентами, мониторинга и алертинга в распределенных системах, способы выявления рутинных задач, которые ухудшают производительность команды. Подходы объяснены так, что несложно спроецировать это на свою компанию, несравнимо меньшую, чем Google. В Skyeng инфраструктуру обслуживают всего шесть инженеров, и этого достаточно, если правильно адаптировать опыт ведущих крупных компаний.

The Art of Capacity Planning: Scaling Web Resources in the Cloud
Книга научит заблаговременно планировать расширение инфраструктуры для растущих проектов. Если мощностей в итоге не хватит, значит, мы плохо спланировали. Если их окажется вчетверо больше, чем потребовалось, то мы потратили уйму денег зря. Предварительные оценки надо уметь делать на год и более, гадание на хрустальном шаре не поможет. Лет 8 назад это было делать сложнее, как мне кажется, хотя тогда уже были облачные сервисы, но они предоставляли не так много услуг, как сейчас.

Проект «Феникс». Роман о том, как DevOps меняет бизнес к лучшему
Единственная книга в этом шорт-листе на русском языке, жаль, что так мало переводят. Она популярно написана, помогает заново взглянуть на процессы поставки в разработке, выявить узкие места, увидеть объемы рутинных задач, защитить плановые работы от завала незапланированных «пожаров». Я бы сказала, что эта книга максимально полезна руководителям для рефлексии, но и инженерам тоже советую, читается легко.

The DevOps Handbook: How to Create World-Class Agility, Reliability, and Security in Technology Organizations
Читать сразу после «Проекта Феникс», книга от тех же авторов, продолжает и развивает идеи улучшения процессов разработки. Тоже советую руководителям в первую очередь. Скоро будет издание на русском языке, очень ждём.

Есть еще список еженедельных рассылок, которые в библиотеку не включишь, но рекомендую всем инженерам:

SRE Weekly
Monitoring Weekly
O«Reilly Systems Engineering and Operations Newsletter
Docker Weekly

Ну и традиционно напомню, что у нас есть много интересных вакансий. Хоть и не в отделе IT инфраструктуры (там позиции недавно закрылись), но работы хватит на всех!