Facebook объявила причину глобального сбоя

it5l36fjyj1edwukzk--is7ivby.jpeg

Спустя несколько часов после восстановления доступа к своим сервисам Facebook объявила причину глобального сбоя. Компания уточнила, что авария произошла из-за изменения конфигурации магистральных маршрутизаторов, которые координируют сетевой трафик между центрами обработки данных Facebook. Их перенастройка вызвала проблемы, которые прервали связь. Нарушение сетевого трафика также оказало каскадное влияние на способы связи с центрами обработки данных, в результате чего внешние и внутренние сетевые услуги были остановлены.
Facebook не пояснила, кто был инициатором изменений конфигурации маршрутизаторов и почему они были сделаны. Компания рассказала, что из-за сбоя перестали работать многие внутренние инструменты и системы, которые инженеры Facebook используют в повседневной работе, что серьезно усложнило попытки быстро диагностировать и решить проблему.

Инцидент с недоступностью Facebook, Instagram и WhatsApp по всему миру длился около 6 часов. Специалисты компании занимались устранением сбоя, но не могли его решить оперативно. Оказалось, что для этого нужно физическое присутствие сетевых инженеров для устранения проблемы на маршрутизаторах в дата-центрах Facebook. В это же время стало известно, что внутренняя сеть компании также стала недоступна, включая корпоративные сегменты, сервера DNS, сервисы и инструменты. Из-за этого специалисты не могли проникнуть внутрь периметра дата-центров — у них не срабатывали пропуски.

Предварительная причина инцидента, о которой заявили многие эксперты — удаленное обновление конфигурации маршрутизаторов внутри сети компании, отвечающих за BGP-сессии и их анонсы, а также автономную систему Facebook, пошло не по плану. После этого перестали быть доступны NS-сервера компании и пропали DNS-записи. Список префиксов FB, с которыми пропала глобальная связность: IPv4, IPv6.

© Habrahabr.ru