Прилег, полежал, встал, побежал

ee8fb5f444df99d9e4c64f54fa8344ea.png

Намедни наш Rutube немного прилег. Не сам, конечно, говорят хакеры помогли, но тем не менее. И со всех сторон зазвучали критические мантры о левых руках, растущих чуть ниже спины у тамошних разрабов и ИБ-шников. Тем интереснее было посмотреть по сторонам. Наверняка же были не менее эпичные фейлы, факапы и прочие отгулы по болезни у популярных сервисов? Go!

YouTube отключился по всему миру (не раз) 

aa2d6ac51022b411929bcac0d2f09fa9.png

В ноябре и декабре 2020 года всеми нами любимый YouTube заболел. Во время отключения у пользователей по всему миру возникли проблемы с загрузкой видео.

50f414e5dc2582a53daad4caa8587f16.png

«Если у вас возникли проблемы с просмотром видео на YouTube прямо сейчас, вы не одиноки — наша команда знает об этой проблеме и работает над ее устранением!».    

Тогда The Verge и другие западные СМИ тогда писали, что авария затронула и другие сервисы Google, использующие инфраструктуру YouTube, включая YouTube TV, фильмы и телепередачи Google TV (ранее известный как Google Play Movies & TV), а также почту и Google Диск и Документы. 

При попытке воспользоваться сервисами возникало сообщение: «К сожалению, ваш аккаунт временно недоступен. Приносим извинения за неудобства». Попытки зайти в «Google Диск» также были безрезультатны: «Не удалось загрузить главную страницу «Google Диска». «Произошла ошибка. Приносим извинения за доставленные неудобства», — сообщал сервис «Google Документы».

Все это продолжалось около пяти часов. В это время график DownDetector зашкаливал от пользовательских тикетов. Многочисленные пользователи в Твиттере также сообщали о том, что YouTube и сервисы Google у них не работают. Пользователи даже запустить хештег #YouTubeDOWN, под которым все желающие могли пожаловаться на перебои в работе сайтов.

Стоит сказать, что это был далеко не первый и последний «больничный» в YouTube. В октябре 2018 года сервис пролежал около часа.

9aa6b2ce0646eb28806adeea8172f712.png

Тогда генеральный директор YouTube Сьюзен Воджицки извинилась за время простоя и поблагодарила пользователей за терпение.

d117d6386ed90d15b1a8774a03d9c34b.png

«Вы были не одиноки — YouTube был закрыт примерно с 6 вечера до 7:20 вечера во вторник.

Техническая поддержка сервиса пообещала оперативно все воскресить и не обманула. Через полтора часа все заработало. О причинах сбоев тогда не сообщалось.

Стоит ли говорить, что в апреле 2021 года сбои в YouTube повторился. 26 апреля пользователи видеохостинга вновь пожаловались на масштабный сбой в работе сервиса.

Данные Downdetector вновь демонстрировали печальные значения. Хотя, справедливости ради, стоит сказать, что число пострадавших было менее 100 000 человек.  

WhatsApp тап-тап

Пришла беда, отворяй ворота. Пожалуй, самым эпичным сбоем ever можно считать массовый недуг в работе Facebook, WhatsApp, Instagram и TikTok в октябре 2021 года. Тогда популярные сервисы прилегли без объявления войны по всему миру. Причем, дважды за одну неделю.

Анамнез прежний: неработоспособность сайтов и приложений ресурсов, а также с соединением с серверами. Пользователи WhatsApp также жаловались на невозможность отправить сообщения.

Среди пострадавших оказались жители России, США, Великобритании, Канады, Нидерландов, Германии, Италии, Франции и других стран.

8c84a8c64f414215b9a00eff41aafd5c.png

Руководство Facebook на своей странице в Twitter написало тогда: «Нам известно, что у некоторых людей возникают проблемы с доступом к нашим приложениям и продуктам». «Мы работаем над тем, чтобы как можно быстрее вернуть все в норму, и приносим извинения за возможные неудобства».

Тогда же возникла конспирологическая теория о том, что всему виной отечественные левши из ведомства на три буквы. Но масштаб бедствия быстро разуверил даже самых матерых скептиков и конспирологов. Всему виной были заморские неведомые силы. 

a26ba725bad6d66f75a07cd01372dfa5.png

В самом Facebook официальной причиной сбоя назвали изменение конфигурации магистральных маршрутизаторов. Некорректная настройка серверов, которые отвечают за координацию трафика между центрами обработки данных, привела к сбоям во всех внутренних сетях компании. 

На самом деле, эксперты говорят, что сбои в работе Facebook происходят довольно регулярно. Заметные проблемы возникают примерно каждые полгода. Нередко сложности случаются из-за перебоев в работе CDN.

Кстати, хороший разбор данной истории уже был на Хабре.

Дуров, верни стену (ну, а вдруг)

Увы, Telegram не стал исключением, пополнив печальную статистику неработающих сервисов в октябре 2021 года. О неполадках сообщали пользователи из России, США, Великобритании и других стран. Люди жаловались на проблемы с приложением (51%) и отправкой сообщений (15%). Еще в 34% сообщений говорилось о проблемах с подключением к серверу.

Основатель мессенджера Павел Дуров, связал возникшие неполадки с массовым сбоем Facebook, Instagram и WhatsApp, в ходе которого сервисы были недоступны по всему миру несколько часов подряд. Тогда в компании отметили единовременный приток в 70 млн пользователей.   

 «Рады всем новым пользователям, которые переходят из WhatsApp, однако серверам сложно справиться со всеми сразу», — написал Дуров в своем аккаунте.

c0acf8f70d35afacd322d31275ff7d65.png

Рамбле…преданья старины глубокой

Для того, чтобы не сложилось мнения, что фейлы и факапы — это тренд последних лет, вот вам история от первого лица. Ее недавно рассказал Игорь Ашманов в одном из тредиков на Роеме.    

Игорь АшмановИгорь Ашманов

«Расскажу к случаю историю из давнего прошлого Рунета. Упрощённо, как помню. В 2000 году (или зимой 2001, не помню точно) пьяный экскаваторщик, как у них принято, перебил интернет-кабель, ведущий в ИКИ на Калужской. В то время там, кроме Рамблера, хостилась половина проектов Рунета. Вся эта половина исчезла из интернет-пространства в одно мгновение.

Или в несколько мгновений: в дата-центре ИКИ были большие ИБП, но они держали час-два всю эту ораву (стоимость ИБП зависит от времени работы чуть ли не экспоненциально). А дизель-генераторов тогда не было.

Но не Рамблер. Наши админы и разработчики бросились в ИКИ, уселись между стойками и постепенно вручную переключали питание от самых неважных проектов Рамблера к самым важным. Так что Рамблер умирал постепенно, отключились контентные проекты, потом рейтинг Тор100, потом уже отключился поиск, потом осталась только главная страница с сообщением об аварии. Этот процесс занял часа два.

Другая рамблеровская команда в это время бросилась в МЧС, нашла дизель, подогнала его на задний двор ИКИ и успела затащить кабель на седьмой этаж через окно, когда внезапно дали штатное питание по основному или резервному кабелю. После этого весь Рамблер поднялся за 30–40 минут.

А вот другие интернет-проекты — не поднялись. Кто встал через полдня, кто через сутки, кто через двое, а кто не смог опомниться и через неделю. Потому что посыпались базы данных, пользовательские кабинеты и пароли, развалились файловые таблицы на дисках, плохо настроенные рейды и т.п.

Я хочу этим сказать, что быстрый подъём интернет- сервиса после падения как ничто другое является критерием мастерства его админов».

9960aefa6f1422b67aa62285762930fe.png

Ашманов также дал свою оценку ситуации с Rutube, но там довольно много резких политических оценок.

Вместо заключения

К сожалению, ни один сервис не может гарантировать свою работоспособность 24\7. Однако, скорость его восстановления после аварий — отличный критерий для оценки команды того или иного сервиса. А еще, напомните, видели ли вы что-то похожее на слова «Простите» от Rutube?

Habrahabr.ru прочитано 98521 раз