Очень странные дела: как мы столкнулись с аномальной зоной на складе
Привет, Хабр! На связи Hoff Tech с новой историей из жизни центрального склада Hoff в Домодедове. В прошлый раз мы рассказывали, как «переносили» складской комплекс из 2000-х в современность: обновляли инфраструктуру, распутывали кабели, боролись с подпольной биржей труда.
Но и после запуска обновлённый склад не сразу заработал на все 100500%: сотрудникам нужно было время, чтобы привыкнуть к работе по-новому, притереться к обновлённым информационным процессам. В отличие от маркетологов вендорных решений, которые продали и забыли, а потом «пишите письма мелким почерком», мы 24/7 находимся в работе с инфраструктурой и пользователями. Это тоже сыграло свою роль — самые захватывающие кулстори часто связаны не с железом и программным обеспечением, а с людьми. Под катом — детали запутанной истории, разгадку которой мы отыскали совсем недавно.
Аномальная зона детектед
Эта история началась с беспрерывного потока обращений от сотрудников склада:
И даже так:
Сотрудники склада постоянно жаловались, что у них не работает Wi-Fi. Когда они переходили из блока в блок или находились в каких-то конкретных местах на складе, связь терялась.
Для справки: центральный склад Hoff (вид сверху)
На первый взгляд, этой в проблеме нет ничего необычного — наверное, на земле не существует места, в котором никогда не было неполадок со связью. Наши техники полезли в систему мониторинга и… никаких проблем не обнаружили — по метрикам Wi-Fi работал идеально.
Тогда, чтобы разобраться на месте, а не у мониторов, админы отправились на склад. Сотрудники склада показали места, где, по их словам, постоянно терялся сигнал. Вот только там всё работало прекрасно — в присутствии технически подкованных специалистов «аномальная зона» себя не проявляла. Но стоило техникам приземлиться на рабочее место, складские снова стали засыпать заявками: «нет Wi-Fi», «терминалы не работают», «работать невозможно».
Продвигаясь по разным уровням бюрократической иерархии, эти жалобы множились и обрастали ужасными подробностями. В какой-то момент мы решили подсчитать примерное время простоев по всем жалобам из-за потери сигнала. Получалось, что склад терял деньги даже не купюрами, а пачками и упаковками, но при этом отгрузки не останавливались!
Спросите откуда пачки? А всё просто — каждый день у сотрудника ПРТ такие сложности с WI-FI возникают каждые 20 минут, то есть 3 раза в час, или 24 раза за 8 часов.
Это отнимает у него 5 минутиз этих 20 (по экспертной оценке сотрудников склада). 120 минут в день умножаем на 50 сотрудников склада на погрузчиках и умножаем на месяц. Итого: 180 000 минут в месяц сотрудники теряли из-за плохого интернета. А дальше, зная зарплату сотрудника, легко переводим это время в потерянные деньги.
Эти таинственные явления мы активно обсуждали и общими усилиями решили:
найти конкретные места, где что-то происходит (а точнее, не происходит);
зафиксировать наличие сигнала или его отсутствие;
отловить типовые ошибки, которых нет в логах программ, и точно определить места, где возникают сбои.
Наш технический отдел мониторит проблему (шутка). Все экстрасенсы в отпуске
Поиск проблемы: всё чудесатее и чудесатее
Причины проблем со связью на складах можно свести к трём категориям:
Сигнал недостаточной мощности в зоне покрытия.
Разнообразные программные сбои.
Проблемы с коммутационным оборудованием, когда, например, локальная сеть перегружена.
Иногда эти три момента накладываются друг на друга. Но все они приводят к тому, что у складских сотрудников не работает много чего, в том числе и терминалы.
Чтобы обнаружить эти проблемы сперва мы обратились к статистике. Мы использовали дашборды, с помощью которых можно посмотреть на текущую ситуацию и исторические данные по операциям.
Мы собрали все эти данные и сравнили с данными за другие дни. И вновь выяснили, что на складе не было никаких глобальных проблем ни в локальной сети, ни в подборах.
Подбор товара — это одна из самых частых и трудоёмких операций на складе. Зная среднюю скорость подбора и количество подборов в заказе, можно понять, есть ли на складе проблемы.
Итак, судя по статистике, глобальной остановки склада — нашего самого страшного сна — можно не бояться. Но какие-то неполадки всё-таки были — и это не галлюцинации выдумки сотрудников.
Опираясь на карты, составленные по обращениям, мы отправились исследовать аномальные зон, где были замечены перебои со связью.
Терминалы сбора данных (ТСД) в этих местах работали хорошо: была и видеосвязь, и пинг, и сетевая связанность. Тогда мы обратились напрямую к сотрудникам, которые больше всех перемещаются по складу, — к операторам складской погрузочно-разгрузочной техники (ПРТ) — и попросили их объяснить, в чём проблема.
Их ответ застал нас врасплох звучал загадочно — оказывается, раньше в этой конкретной зоне ничего не работало, а сейчас всё отлично. Мы на всякий случай проверили ещё один терминал — он тоже работал.
Ну хорошо, всё везде работает, но почему поток жалоб никак не иссякает?
Истина где-то рядом
И где-то в этот момент отчаяния и тоски к нам пришло озарение:
Склад — живой организм, и наполнение ячеек в нём регулярно меняется. Сегодня в этой зоне — мебель и стройматериалы, а завтра — посуда и предметы декора.
Если заполнить ячейки металлической посудой в зоне, где Wi-Fi средний или чуть ниже, металл экранирует сигнал и влияет на приём.
Когда поддон с кастрюлями и чайниками уезжает на другой склад или в магазин, сигнал восстанавливается — до следующего раза.
Эта гениальная в своей простоте идея пришла к нам во время осмотра ячеек. На складе не меняется ни количество людей, ни количество терминалов, ни Wi-Fi. Единственная значимая переменная — сам товар, который регулярно перемещают туда-сюда. Логично предположить, что как раз с ним и связаны аномалии.
По-хорошему нашу «теорию кастрюль» надо бы проверять вручную — наполнить ячейки металлическими товарами и посмотреть, что будет с сигналом. Но нам хватило натурного эксперимента с разными терминалами: мы сравнили, как они работают одновременно в одних и тех же зонах. Этот эксперимент помог нам понять кое-что важное: на складе мы использовали две модели ТСД от Honeywell, и на одном из них был чип, который не очень стабильно работает в сети 5 ГГц. Как мы потом узнали, с этим сталкивались и другие компании: у них были похожие проблемы с отсутствием сигнала. Со второй моделью таких проблем не возникало.
Схватка с «зоной кастрюль»: ищем решения
Самый очевидный вариант — рубануть с плеча: добавить Wi-Fi-оборудование и усилить сигнал, поднять его уровень выше среднего по всему складу. Минус такого подхода — стоимость: выйдет в несколько миллионов рублей на каждый блок. Пожалуй, слишком высокая цена за избавление от «аномальных зон».
Решение заменить Wi-Fi на сотовую связь нам тоже не подошло бы.
Складской комплекс Hoff находится за городом, где не все сотовые операторы качественно ловят.
Любой склад — это большая коробка, в которой никто не отменял явление интерференции и проникания сигнала. С сотовой связью будут те же проблемы, а её стоимость выше: терминалы с сим-картами стоят дороже, чем с Wi-Fi. Плюс тарифы от оператора и прочие сложности.
Терминалы с сотовой связью — это и вопрос безопасности соединения. Нужно будет или выбрать одного оператора, привязываясь к его базовым станциям, или состыковаться с каждым оператором, что накладывает ещё больше ограничений.
Распределить все кастрюли по складу равномерно — тоже так себе выход. Во-первых, складу придётся подстраиваться под особенности ИТ-системы. Во-вторых, никто не сможет предоставить на 100% рабочую схему размещения товаров, чтобы они были максимально радиопрозрачными.
Единственным стопроцентно верным местом может быть стена блока, но таких стеллажей всего два ряда в каждом блоке.
Далее мы пошли по пути наименьшего сопротивления: решили поставить дополнительные узконаправленные точки в проблемные ряды, а ещё лучше — развернуть наши обычные и повесить их напротив ряда. Вооружившись бухтой кабеля, инженеры пошли делать прототип нового решения. Сделали замеры и ничего. НОЛЬ. Изменения не даёт никакого эффекта. Слишком далеко и глубоко.
Ну и тогда у нас остался последний шанс — заменить проблемные ТСД. Всё же это более реалистично, чем доустановка точек доступа или тем более их полная замена. Да и цена вопроса все же ниже. Благо, выбрать ТСД есть из чего — на рынке довольно много брендов. Выбранные ТСД мы отдавали сотрудникам, которые могли дать объективную обратную связь. В итоге остановились на M3 US20.
Наш технический отдел после победы над «зоной кастрюль». Ну почти
Вывод номер раз: коммуникация — наше всё
Из этой истории с аномальной зоной мы сделали несколько выводов.
Наблюдение первое: разворачивая Wi-Fi-сеть, стоит сразу максимально обвешивать процессы мониторингами, но на них нельзя слепо полагаться, особенно первое время. Мнение сотрудников не менее важно, и не стоит отмахиваться от жалоб, потому что «по мониторингу всё зелёненькое».
Вывод номер два: дороже не значит лучше
Узнав о проблемах, мы могли бы, не разбираясь, перейти на более дорогое оборудование с избыточной мощностью, но решили вникнуть в проблему и не прогадали.
Наблюдение второе: выбирая между «потратить в 10 раз больше» и «сэкономить», мы остановились на экономии, прошли этот путь, получили бесценный опыт и факапы, о которых можно рассказать на «Хабре», и на других складах будем действовать быстрее, проще и эффективнее.Так в перспективе мы сохраним ещё больше денег.
Вывод номер три: помни о субъективности
Наблюдение третье: зачастую люди субъективно оценивают ситуацию, нельзя полагаться только на их мнение.
Типичный пример из складской жизни: рядовой сотрудник сообщает, что его терминал перезагружается «целых» 30 секунд. Информация доходит до руководителя в слегка преувеличенном виде: терминал не работал от 5 минут до получаса. Если такими сообщениями руководителя бомбардировать регулярно, у него создастся впечатление, что у какого-то сотрудника терминал вырубается на длительное время по 20 раз на дню. В тикетах получается, что 100 минут из 8-часового рабочего дня человек ничего не делает из-за глючной техники.
Такая субъективная математика формирует искажённое понимание, что на складе всё плохо и, кажется, действительно проще залить всё деньгами и поставить дорогущее сетевое оборудование. Но это не соответствует реальности и, самое главное, не решит проблему.
Самый объективный источник информации — видео- и фотофиксация всего, что перезагружается, простаивает, ломается. Ещё вариант — использование систем автономности, когда, например, логирует сам терминал: делает скриншот, записывает в системе. Совсем мечта — это система LBS, которая позволяет отслеживать местонахождение терминала или триангуляцию на Wi-Fi, а ещё умеет фиксировать картинку и сетевое состояние в момент времени. В критической ситуации система делает скриншот и отправляет crash-репорт в папку с такими данными.
Дашборды тоже уменьшают искажение информации, помогают увидеть нестыковки и разобраться, что действительно происходит. Но все эти методы несовершенны, так что не ленитесь и выходите «в поля» к сотрудникам, даже если на вашем мониторе всё выглядит идеально. Именно коммуникация и замеры на месте помогают найти проблемы и избежать недопонимания между отделами, рядовыми сотрудниками и руководством.