Будни техподдержки: байки про то, что бывает, когда не можешь дойти до юзера
Мы среди прочего оказываем поддержку по Вотсапу. Вечер, ничто не предвещает проблем, как тут вдруг открывается окно видеозвонка. Крупным планом — телеком-оборудование, установленное на площадке заказчика… И оно горит. Буквально. Видно огонёк, похоже — изоляция проводов около блока питания. Человек спрашивает, что делать. Кричу:
— Туши!
Он:
— А можно?
— Можно!
И только тогда он тушит.
Оказалось, что у них далеко не всё можно тушить обычными средствами: может в ответ ударить током на пару десятков тысяч Вольт. Или вообще тушение помешает работе важного оборудования. В общем, он увидел возгорание, позвонил в поддержку и, пока устанавливалось соединение, нашёл и подготовил огнетушитель.
В общем, привет, Хабр! Я из команды удалённой технической поддержки, и мы часто общаемся с пользователями по всей стране и за её пределами. И они творят довольно странные вещи. Ниже будут байки.
Что мы делаем, и что это
КРОК может брать на поддержку офисы, производства и отдельные сервисы. Занимаемся мы этим уже много-много лет. Есть команда колл-центра, которая реагирует по стандартным скриптам и помогает в типовых ситуациях, вторая линия (это я и коллеги) — для разбора сложных случаев, когда надо залезть на уровень настройки сети, сервера или в прикладное ПО, и мобильные инженеры, которые ездят и меняют железо. Плюс команда перезагрузки в каждом городе, но про это будет дальше. В работе встречается много романтики, потому что мы часто делаем очень плотные SLA для банков и розницы, поддерживаем объекты транспортной инфраструктуры. По понятным причинам названий заказчиков не упоминаю, а безопасники ещё поменяли часть не очень важных деталей, чтобы никого нельзя было однозначно узнать.
Жара
В пики жары пропадает связь с одним из локальных серверов. На объектах таких серверов много, смонтированы они довольно компактно в техпомещениях, и везде сложности с охлаждением, причём часто используется внешнее принудительное. Ну то есть мощный вентилятор, направленный прямо на стойку. Коллеги называют это модным словом «фрикулинг», но это именно вентилятор, направленный на стойку.
Но случается такое не каждый день по жаре, а примерно только каждый второй. Начинаем разбираться — иногда, как в детективе,: оказывается, там в этом же помещении работают два человека. Один специалист знает, что такое стойка, или близко догадывается о таинственной связи мигающих лампочек и вентилятора. Второй специалист — бабушка. Она не знает. И когда жара доходит до максимума, бабушка чувствует thermal threshold, затем берёт и поворачивает вентилятор на себя. Потому что её маленький вентилятор не такой мощный.
Логичное следствие — бабушка охлаждается, стойка перегревается. Дальше по порогу температуры происходит штатный thermal shotdown. А у нас — очередной тикет.
Случай нередкий, нам не привыкать Пишем памятки и обучаем ключевых людей заказчика, а они должны обучать линейных людей. Но правильно случается не всегда. Ещё в одном похожем помещении стойка отключалась по ночам на шесть–восемь минут. Потом узнали: нового сторожа не предупредили, он отрубал питание стойки из розетки, включал чайник, а потом возвращал всё как было.
Бывают и просто странные вводные. Ещё один горе-электрик вывел питание кондиционера на выключатель света в техпомещени. Пока там кто-то есть — всё работает. Люди уходят — стойка выключается. В итоге там сейчас висит табличка «Свет не выключать!!! Вырву руки!!!» Похоже, электрику уже вырвали, поэтому сделать правильную разводку он не может, приходится решать вот этим костылём.
Разрешение на посещение туалета
Отправляем выездного инженера на обслуживание одного из узлов крупной сети. Девушка-инженер едет на место. Надо сказать, что это очень своеобразное помещение с высокими потолками, которое строилось ещё во времена зарождения СССР. После нескольких реконструкций над мужским туалетом сделали пространство над кабинками, куда можно уложить оборудование. Частая ситуация по стране, кстати: места под железо не хватает, делают «фальшпотолок». Почему-то обычно там. Я сам пару раз подключал коммутаторы, стоя на унитазе.
Девушка приходит к руководителю объекта и просит разрешения на посещение мужского туалета. Сначала люди долго не понимают, зачем ей это. Потом включается бюрократическая машина: случай незнакомый, и что делать, никто не знает. В итоге ей стоило больших трудов сделать всё правильно. Парни просто закрыли туалет на время работ официально и позволили творить внутри что угодно.
В розничных сетях оборудование почему-то часто монтируют рядом с трубами с водой или фановыми. В паре серверных и в помещении наблюдали, как течёт вода. Последний случай вообще видели по камерам мониторинга: начинается дождь. Стоит стойка с оборудованием (естественно, запитанная), рядом — три тазика, а с потолка равномерно и монотонно капает. Всё обошлось, причём, кажется, эта ситуация смущала только нас. Волновались за заказчика только наши инженеры.
В другой раз трубу над серверной прорвало. Инженер прямо на видео снимает коммутатор с крепления, переворачивает — из него выливается стакан воды. Что характерно, коммутатор продолжает работать. Мы его привезли к нам в лабораторию, а заказчику дали новый взамен.
Как то телеком-оборудование выжило после запуска системы порошкового пожаротушения в одном из офисов заказчика. Там просто вытрясли весь порошок (это было довольно сложно, пришлось разбирать), но сама железка до сих пор работает.
Учения
Аудит сетевого оборудования на одном защищённом объекте. Руководитель по технической части стоит перед комиссией. Защитился. В конце жалуется:
— Питание у нас от города плохое, постоянно напряжение не то. Вот если взять вилку, в эту розетку вставить, то обычно бывает плохо. Стойку вырубает.
И вставляет вилку показать.
Стойку не только вырубило, но ещё и вывело из строя шлюз, а затем — сервер. На серваке сгорел жёсткий диск, где крутились приложения для управления объектом. Всё встало просто железобетонно.
Комиссию переназначили на следующий день. А нам пришлось за ночь поднимать новое оборудование и привозить его на место.
В похожем случае (только там был реальный сбой по питанию, а не вот такие учения) объект обслуживал крупный отечественный провайдер. Очень крупный и очень отечественный. Мы открываем заявку на то, что их оборудование погорело. У них SLA — восемь часов. Ответ их поддержки:
— Ну да, знаем, что там железо сломалось. Вы что, не видите, у нас обед? Завтра или послезавтра монтажник приедет.
Оказалось, что SLA у них есть, а вот штрафа за нарушение нет.
Второй случай с учениями был такой. Банк. Два часа ночи, заявка на критичную железку. Четыре часа на замену. С криками: «Коллеги, всё пропало!» (но только одним словом) — мы дозваниваемся до американцев, они говорят, где забрать железку в Москве, едем туда, собираем, в это время коллега ползает на коленях перед логистами. Успеваем. Через час пятнадцать привозим им. Они нас даже в здание не пускают:
— Спасибо, но нам уже не надо.
— Мужики! Что это было?
— Учения!
Бомж-SMS
Поддерживаем иностранного сотового оператора. Один из сервисов, который у нас на мониторинге, — преобразование SMS в духе «Абонент пытался вам позвонить, но у него нет денег» в не отвеченный звонок. То есть вместо сообщения приходит неотвеченный, но телефон не звонит. Оператор, кстати, посчитал, что так вероятность обратного звонка гораздо выше.
В один прекрасный день с графика пропадают все транзакции. Просто нет звонков без денег вообще. Мы начинаем разбираться, но никак не можем найти концы. Только через час доходит, что в стране нет звонков вообще.
И потом они начинаются ночью. Это мусульманский праздник Рамадан, и график звонков перекосило. У нас такое случается на Новый год, когда 1 января с утра почти нет звонков, а там случилось весной.
Ещё с иностранными заказчиками всегда надо проверять их инженеров, куда конкретно они подключаются. Один шведский вендор ставит системы для управления людьми. В России — две инсталляции. На одной просят обновить до последней версии, потому что им нужна какая-то новая фича. Другая стабильно работает уже почти полгода, и там никаких вопросов. Шведы подключаются, молча обновляют второго заказчика, отчитываются первому об обновлении, закрывают кейс.
Мы готовимся извиняться и компенсировать (потому что система 20 минут не работала у второго, и сейчас нужно будет ещё согласовывать новое окно у первого), как вдруг выясняется, что:
- Первый заказчик доволен и подтверждает тикет.
- Второй вообще не заметил простоя.
Мы тогда никому не сказали, но это было очень странно.
Отстрел ног
Когда заказчик на поддержке хостится в облаке и просит прямой доступ к машине вместо того, чтобы описать нам, что будет, мы делаем ставки, как быстро они там отстрелят себе ноги. Случай такой не первый и даже не сотый. Админы заказчиков регулярно теряют удалённый доступ к машине по самым разным причинам. Вот свежий случай: настроили они там новую аутентификацию, а она взяла и сбросила текущих пользователей. А чтобы пройти эту аутентификацию и пробросить удалённый доступ заново, надо как-то пробиться внутрь и всё настроить сначала. В общем, настройка файрвола по удалённому доступу — к долгой дороге.
Мы в таких случаях нанимаем команду релоада. То есть админа, который может перезагрузить сервер или поиграть в телеуправляемого робота с Ватсапом. Это чтобы когда настраиваешь что-то в Хабаровске, потом не полететь в командировку ночью в Хабаровск.
Для нового сетевого железа и нормальных конфигов у крупного вендора есть штатная команда на откат на предыдущий конфиг. Активируешь таймер на полчаса. Если за полчаса не отменить это задание, то будут рестарт и восстановление прошлой версии. Если всё хорошо настроил — проверяешь (два раза) и отменяешь эту задачу. Когда уверен, что всё работает.
Иногда нужно ездить ставить оборудование. У нас есть парень по кличке »13-й». Потому что, когда выпала командировка в Сургут, он уже собрался с железкой в аэропорт, и по дороге ему сказали, что эта же железка куда нужнее тому же заказчику в Краснодаре. И поменяли билет. Второй раз он приехал на замену, а там всё само поднялось за время полёта, и он присылал нам в рабочий чат фотографии ног на пляже.
Но лучший случай был такой. Заказчик перед уходом взял и удалил коннект между двумя рабочими в паре серверами. Мы сидим, приходит запрос: «Ничего не работает». Подключаемся, смотрим:
— Что делали?
— Перед уходом домой я удалил коннект между серверами.
— Зачем?
— А что так нельзя было?
У вас есть бинокль?
Когда мы тестировали систему распознавания перелезающих через забор людей для одной транспортной компании (распознавание для видеонаблюдения), то как-то выезжали по утрам размечать места для монтажа видеокамер. Было важно найти «зайцев» и не спугнуть их, чтобы потом поставить в местах частого перелезания камеры. Взяли бинокль, но он не понадобился, потому что «зайцы» ничего не стеснялись и не спугивались.
В прошлом месяце в здании напротив нашего офиса открылась фотостудия. С большими окнами и естественным светом. Там регулярно снимают голых или очень условно одетых моделей, но издалека совсем не видно их лиц. Поэтому бинокль оказался востребован. В день особо горячей съёмки поступило сразу несколько тикетов с запросом от коллег из офиса.
На контроле
Приехал к заказчику, у которого много офисов по РФ. Есть главный сервер в Москве и множество соединённых из допофисов в РФ. Ковыряюсь в одной из региональных железок. Ко мне подходит местный руководитель и сообщает:
— Слишком долго ковыряетесь.
— Ну работа такая.
— Вы понимаете, что это на контроле у самого…
— У президента компании?
— Нет, у самого…
— Конкретно этот сервер?
— Да.
Я посмеялся. Он такой:
— Неправильно делаешь, что смеёшься.
И ушёл.
А я подумал, что опасная у нас работа. Может, он реально на контроле стоит. Может, я за такую дерзость мог и по лицу получить. Лично от самого…
Вай-фай
Заказчик нон-стоп открывает инциденты на проблемы с вай-фаем. А надо сказать, что это большой ангар, в ангаре — склад, и там из-за стеллажей с металлом (лежат заготовки для завода) не всегда добивало до центра. Мы им делали быстрое радиообследование и рекомендовали, что и куда поставить. Они отчитались, что всё сделали по нему. И вот, похоже, центральная точка доступа не цепляется и постоянно пропадает. Отправили туда мобильного инженера. Оказалось, что в тот момент, когда рассчитывали расположение точек, там в центре ангара стоял кран. Собственно, он очень понравился монтажникам заказчика, и они закрепили точку прямо на него. А кран ездит по складу, и, когда он уезжает в одну сторону, в другой сети уже нет. Некоторое время они пытались понять, почему сеть то пропадает, то сама чинится, а потом уже постучали к нам.
Лучший кейс
Сложная заявка, разбираемся с пользователем почти полчаса на телефоне. Я уже всё проклинаю, потому что это тот самый случай, когда человек не может внятно сформулировать, что именно он сделал. И не сообщает всего того, что видит на экране. И не говорит всё то, что делает прямо сейчас. Уже предчувствую, что необходимость делать всё медленно и осознанно бесит его не меньше, чем меня. Но по другой причине. И вот во время очередного объяснения, что если он не будет читать всё то, что видит на экране, я ему помочь не смогу, он вдруг сообщает:
— Извини, у нас тут пожар.
И вешает трубку. В тикете я написал «сгорело здание вместе с оборудованием» и поехал лично проверить –, а то мало, ли…