3-х дневное падение облачного сервиса Битрикс24

rummxdckcgchku_d0_y-w8n1yj8.jpeg

Произошло, пожалуй, самое крупное падение сервиса Битрикс24 за свою историю.В общей сложности на протяжении 3 дней у пользователей Российского сегмента возникали трудности с доступностью www.bitrix24.ru, www.bitrix24.by и www.bitrix24.kz Общее количество зарегистрированных в сервисе компаний составляет около 3 000 000.

Падает все и международный сервис Российского производства не исключение. Предлагаю читателям ознакомиться с хронологией событий данного падения и восстановления.
В конце я сформулировал несколько вопросов, которые интересовали большинство пользователей сервиса и меня лично.

Начало. 09 февраля 2018 года


В ночь на 09 января 2018 года, около 01:00 ночи по Московскому времени у многих пользователей www.bitrix24.ru не открывались их порталы на *.bitrix24.ru По некоторым данным проблемы начались еще 08 февраля 2018 года в виде «тормозов» и частичной недоступности.

Затем на официальной странице Facebook Битрикс24 появилось сообщение:

Дорогие клиенты!
В данный момент около 30% пользователей «Битрикс24» в России столкнулись с перебоями в работе сервиса. Проблема появилась в полночь с 8 на 9 февраля. Мы работаем над её устранением с первой минуты появления.
Причина — выход из строя сетевого оборудования «Корп Софт» — хостинг-провайдера российской части нашего сервиса.


У пользователей возникли сильные сомнения насчет 30%. Вот вырезки из комментариев:

«Вы упали вчера ночью еще, — написал пользователь Максим Наумов.


— Вы планируете делать хотя бы status page? И не падать каждый месяц?». «Ребята, вы не охренели там? Сообщать спустя 10 часов о проблемах у 30% клиентов?», — задал вопрос Дмитрий Антонов.


«Парализована работа офиса. Надо задумываться о смене CRM», — рассуждает Денис Дивинский.


Реакция Генерального директора 1С: Битрикс. 09 февраля 2018 окло 13:00


Генеральный директор 1C: Битрикс Сергей Рыжиков на своей странице выразил, мягко говоря, крайне негативное отношение к сложившейся ситуации. В дальнейшем его пост был удален, но в Интернете ничего так просто не пропадает, нецензурные слова я прикрыл решеткой, смотрите скриншот:

6xxyea6-s-4vxkhomfbvq5fsro0.jpeg

Сервис продолжает лежать. Назван хостинг провайдер, у которого возникла проблема с оборудованием. 09 февраля 2018 около 16:00


Этим провайдером оказался Корп Софт — www.corpsoft24.ru В период «лежания» Битрикс24 сайт Корп Софт также был недоступен.

Сервис лежит. Продолжаются восстановительные работы


В выходные дни с 10 по 11 февраля 2018 сервис продолжат лежать, но некоторые пользователи сообщали о том, что у них начали открываться их порталы на *.bitrix24.ru, но затем снова падали.

Сервис восстановлен частично. Продолжаются восстановительные работы 12.02.2018 в 09:00


Часть пользователей сообщало о том, что сервис заработал, но не меньшая часть говорила обратное.

Переезд на Amazon Web Services 12.02.2018 в 10:00


На Facebook странице Битрикс24 сообщили о переезде на Amazon Web Services в Германии:

Дорогие клиенты!
Из-за проблем с хостинг-провайдером «Корп Софт» в пятницу, мы приняли решение о смене поставщика услуги на Amazon Web Services в Германии.

Мы мобилизовали все ресурсы и работали все выходные, чтобы переезд прошел для вас максимально незаметно и безболезненно.

За 48 часов мы развернули в Amazon Web Services новое оборудование и инфраструктуру. К сожалению, перенести данные объемом в 300 серверов и заново настроить всю инфраструктуру за этот срок невозможно физически…


Снова упоминается провайдер Корп Софт, который упал в очередной раз при попытке переезда 11.02.2018:

ba7wwkq5mml8qpqcvmvhlurn5rc.jpeg

Генеральный директор 1С: Битрикс сообщил о причинах падения. 12.02.2018 в 11:00


32lk77riaz1vtgbjlxxze3icjvg.jpeg

Полное восстановление сервиса. Успешный переезд на AWS. 12.02.2018 около 14:00


Собственно, переезд на Амазон осуществлен. Работа сервиса восстановлена!

domain: BITRIX24.RU
nserver: ns-1176.awsdns-19.org
nserver: ns-1906.awsdns-46.co.uk
nserver: ns-392.awsdns-49.com
nserver: ns-580.awsdns-08.net


В связи с переездом на зарубежный сервис у пользователей возник ожидаемый вопрос: Как же будут в таком случае выполняться требования Федерального закона о персональных данных? (152/242-ФЗ):

-0ju4arlnlz8tp9eou_vj9jhuji.jpeg»

Сергей Рыжиков в Facebook обещал рассказать позже, каким образом его компания будет соблюдать закон о персональных данных, располагая сервис за рубежом.

Итоги и вопросы


Итог: сервис был недоступен или частично доступен в течение почти 3 дней.

Вопросы:

  1. Основной вопрос от пользователей: «Будет ли компенсация за такое падение?»
  2. Основной вопрос от ИТ специалистов: Как мог 1 коммутатор положить сервис, который крутился в 2 дата-центрах?
  3. Основной вопрос от юристов: Каким образом компания будет выполнять требования Федерального закона о персональных данных, располагаясь в Германии?
  4. Почему не использовались резервные каналы?


UPD от 13.02.2018
Пояснения об инциденте от Генерального директора «Корп Софт»:

… В действительности наша инфраструктура подверглась целенаправленной атаке. В настоящий момент уязвимость обнаружена. Для выявления заказчиков и исполнителей данной атаки компания CorpSoft24 обратилась с официальным заявлением в Управление К МВД РФ. Расследование инцидента продолжается. О его результатах мы обязательно сообщим.

Рензяев К.В.

Генеральный директор АО «Корп Софт»

© Habrahabr.ru