Причина масштабного сбоя облака Microsoft 365 определена — единой точкой отказа стала Azure Active Directory

8dliwhjcgs5h_cqekxqdpbx-yqm.jpeg

Согласно информации издания Register, причиной недавнего масштабного сбоя многих облачных сервисов Microsoft, включая Office 365, стал сервис Azure Active Directory (AAD). Компания слишком понадеялась на надежность своего облачного сервиса, который фактически стал единой точкой отказа. Из-за проблем внутри AAD пользователи более пяти часов не могли войти в свои аккаунты, получать почту и работать с офисными приложениями, были недоступны сервисы OneDrive и SharePoint.
Облачная служба Azure Active Directory контролирует все, от электронной почты Outlook до Teams и портала Azure, используемого для управления другими облачными службами Microsoft. Проблема затронула даже локальные установки Microsoft Office и Visual Studio — система писала, что не может проверить, что эти продукты лицензированы и, следовательно, они не будут работать далее, пока не подтвердиться факт покупки лицензии.

По некоторым данным, пострадали системы службы экстренной помощи 911 в США. Эта система основана на Rapid Deploy Nimbus Dispatch и является автоматизированной платформой диспетчеризации на базе Microsoft Azure.

Таким образом, в ADD произошла нештатная ситуация, когда возникла серьезная проблема в проверке подлинности многих приложений. Причем отказоустойчивость системы подвела — переключение трафика на сервера в других регионах для Azure не помогло.

Официальная причина, озвученная Microsoft — изменение конфигурации ADD повлияло на работу систем внутреннего хранилища, что вызвало задержку запросов аутентификации.

Далее компания пыталась объяснить действия своих сотрудников по устранению проблемы — «мы откатили изменение, которое, вероятно, является источником воздействия», «мы не наблюдаем увеличения количества успешных подключений после отката недавнего изменения», «мы перенаправляем трафик в альтернативную инфраструктуру, чтобы улучшить взаимодействие с пользователями», «мы наблюдаем улучшения в работе нескольких служб после применения мер по снижению рисков».

Причем часть проблем так и не была оперативно решена — некоторые корпоративные пользователи и далее не могли получить доступ к SharePoint Online или OneDrive. Позже Microsoft пояснила, что пересматривает процедуры развертывания и подготовки облачных сервисов, чтобы предотвратить подобные проблемы в будущем.

Ранее в августе этого года технический директор Azure Марк Руссинович пояснил, что компания осознает печальную реальность, заключающуюся в том, что, учитывая глобальные масштабы клиентских операций и необходимость в изменениях многих сервисов, нельзя полностью избежать отключений в облачной инфраструктуре.

Microsoft сейчас как никогда обеспокоена общей архитектурой и реализацией Azure, несмотря на усилия, направленные на обеспечение устойчивости, и улучшение показателей доступности услуг этого облачного сервиса за последний год.

Сейчас специалисты Microsoft, которые так много сделали сервисов, поддерживающих Azure Active Directory, понимают, что это единственная точка отказа. Компании планирует сделать эту систему более устойчивой, чтобы отказ в ее работе минимально сказывался на пользователям. Однако, это будет сделать сложно. Возможно, что компании стоит подумать о постепенном снижении зависимости такого количества сервисов от одного облачного решения.

28 сентября 2020 года многие пользователи Microsoft Office 365 в США, Австралии и Японии столкнулись с невозможностью войти в свой аккаунт в сервисе, пропал доступ к к электронной почте. У них отображалась ошибка «AADSTS90033: A transient error has occurred. Please try again». Microsoft пояснила, что эта проблема на их стороне, и часть пользователей действительно могут не иметь доступа к нескольким службам Microsoft 365, использующим Azure Active Directory (AAD), включая Outlook, Microsoft Teams, Live Events Teams, а также Office.com. Кроме того, этот инцидент повлиял на работоспособность Power Platform и Dynamics365.

© Habrahabr.ru