Проактивная ИТ-поддержка
Рассматривая компании, которые предоставляют ИТ-поддержку, складывается впечатление, что основными критериями качества обслуживания является:
скорость реакции на задачу: от 5 минут (как правило, зависит от тарифа);
наличие системы постановки задач;
оперативное прибытие техника на объект в случае сбоя;
дистанционная поддержка, как приоритетный формат работы.
Эти параметры задают сами аутсорсинговые компании. Если описать общую схему такого взаимодействия, то ее можно отразить следующей последовательностью, рисунок 1:
Рисунок 1 — Общая схема работы поддержки.
Такой подход и работа очень похожи на «тушение пожара», т.е. реакция на сбой происходит по факту его появления. Поэтому рассмотрим ИТ-поддержку, нацеленную на предотвращение сбоев.
Проактивная поддержка
Под проактивной поддержкой мы понимаем работу на исключение каких-либо проблем и сбоев до их наступления.
Любая поддержка является систематической работой, в состав которой входят:
регламентные работы (обновление ПО, антивирусная проверка, проверка соблюдения регламентов по работе с документами и др. операции);
мониторинг загруженности и потребления ресурсов;
оперативное управление ресурсами, их расширение;
отработка триггеров мониторинга для предупреждения сбоев;
выявление причин потенциальных сбоев и исключение их повторного появления;
своевременное выполнение задач пользователей;
периодическое проведение «учений» по моделированию и отработке сбоев.
Для выстраивания работы в формате «Проактивная поддержка», достаточно придерживаться следующей последовательности.
Путь проактивной поддержки
Собираем требования бизнеса — это самые основные вопросы, на базе которых строится работа:
Временной период, в который работоспособность инфраструктуры / сервисов должна быть восстановлена.
Здесь мы понимаем, соответствует ли текущая инфраструктура Заказчика требованиям к восстановлению или необходимо прорабатывать план модернизации.
Т.е. время между последним бэкапом и потерей данных при сбое.
Наглядный пример отражен на рисунке 2:
Рисунок 2 — Точка восстановления данных.
Оценка требований бизнеса и фактического состояния ИТ
выявление точек потенциального сбоя;
оценка избыточности, нехватки и потенциала апгрейда оборудования.
Результат, данного этапа:
подготовлена концепция модернизации (оптимизации) инфраструктуры при необходимости;
выделены первичные критические задачи. Здесь допускается применять «временные решения», что позволит оперативно получить результат;
согласован регламент последовательности действий при «форс-мажорах, предупреждение и реагирование на проблему».
Важно! Регламент отработки форс-мажоров — один из важнейших документов.
Он отражает:
перечень критически важных сервисов и аппаратных устройств;
порядок восстановления работоспособности (что и куда восстанавливать);
время восстановления критических сервисов, что формирует корректное ожидание у бизнеса;
порядок уведомления пользователей о происшествии и нормализации деятельности сервисов.
Модернизация (внедрение) инфраструктуры и апгрейд
обеспечить резервирование критически важных узлов. Например, при наличии зависимости компании от Интернета, необходимо иметь резервный шлюз. Реализовать холодный резерв или собрать в стек — вопрос уже второй. Главное — при сбое не придется «бежать в магазин» и потом настраивать новое оборудование;
провести проверку системы бэкапирования с учетом требований по восстановлению данных;
внедрить систему мониторинга серверной, сетевой и каналообразующей инфраструктуры;
сформировать документацию по объекту;
изъять права администратора у пользователей ПК.
Важно! Необходимо проверять готовность команды и методику восстановления систем минимум раз в 6 месяцев, проводя учения и моделируя сбои.
Передача объекта на поддержку
назначается ведущий инженер;
инженер принимает объект согласно сформированной документации (проверяет полноту структуры, роли, доступы и прочее);
проверка корректности системы бэкапирования.
«Золотое правило» тех поддержки:
Не навреди! Помни, что в рабочее время компания Заказчика зарабатывает деньги и любой простой в работе грозит убытками. Все действия, которые могут привести к сбоям в текущей работе ИТ-инфраструктуры, необходимо выполнять в нерабочее время.
Путь к проактивной поддержке на практике
Рассмотрим на практическом примере, как выстроить ИТ-поддержку на качественном уровне, а «не тушить пожары».
Примером послужит торгово-производственная компания.
Требования бизнеса:
Обеспечить поддержку ИТ инфраструктуры:
Исключить проблемы с периодическим отвалом 1С.
Входящие данные:
общее количество пользователей: 30;
учетная система 1С КА и 1С Бухгалтерия на несколько пользователей;
в основном все работают из офиса, удаленно работают сотрудники финансового блока.
Общая ИТ структура:
Рисунок 2 — Общая ИТ структура Заказчика.
Host 1, носитель ВМ. Основная роль — терминальный сервер;
Host 2, носитель ВМ. Основная роль — сервер 1С;
Host 3, выделенный сервер не являющийся критически важным и обеспечивающий работу не основной 1С на 5 пользователей.
Оценим соответствие текущей инфраструктуры и требований бизнеса
Работы состоят из двух направлений:
Сбор объективных показателей инфраструктуры, а именно потребления ресурсов серверов и стабильности их работы в части доступности сервисов. Поможет в этом мониторинг Zabbix.
Краткие выводы:
Host 1 достиг предела аппаратной модернизации;
Host 2 по итогам замеров показал занятость RAM 84%, средняя загруженность процессора 44%.
Определение точек сбоя и критически важных сервисов. На рисунке 2, критические точки выделены красным (o).
Серверная инфраструктура
Краткие выводы:
основным сервисом является 1C: Предприятие Комплексная Автоматизация;
осуществляется бэкапирование;
Host 1 расширению не подлежит, исчерпаны аппаратные возможности, занятость ресурсов 85%;
Host 2 подлежит модернизации. Необходимо увеличить дисковое пространство и оперативную память.
Сетевая инфраструктура
основной шлюз не зарезервирован, отсутствует ЗИП. Потенциальная точка сбоя;
используются коммутаторы базового, домашнего уровня. Не рассчитаны на постоянную работу под нагрузкой. Резерв отсутствует;
большая часть пользовательских устройств подключена к сети через WiFi, построенную на устаревших точках доступа. Нет стабильной работы и контроля за клиентами беспроводных сетей.
Итого: в текущем состоянии инфраструктура не обеспечивает необходимую доступность и отказоустойчивость работы сотрудников. Поэтому с бизнесом необходимо согласовать поэтапное уменьшение сроков восстановления работы сервисов. На первом этапе восстановление работоспособности возможно за 1 час. В таком случае, 1С: Предприятие получится восстановить на Host1.
Рисунок 3 — Пример из регламента отработки форс-мажоров.
Таким образом, с бизнесом согласован регламент отработки форс-мажоров. Порядок действий и решение любой проблемы будут понятны и прозрачны, как Исполнителю, так и Заказчику в лице пользователей.
Исключить потенциальные риски
Понимая потенциальные точки сбоя, дальнейшие действия по модернизации ИТ-инфраструктуры становятся прозрачными:
отказоустойчивость основного шлюза — разворачиваем VRRP кластер на базе Микротика. При падении «Основного» устройства, главным становится второстепенный шлюз;
модернизациясетевого оборудования — отказаться от множества свитчей и осуществить переход на использование стека из 2×24 портовых коммутаторов;
модернизация Host 2;
модернизация Wi-Fi — разворачиваем бесшовную mesh сеть на базе точек доступа Ubiquiti с выделением гостевой сети;
в облачную инфраструктуру выносим резервирование основной учетной системы. Это стало возможным благодаря настройке отказоустойчивости шлюза;
настроен мониторинг работы инфраструктуры и сервисов.
Пример целевой инфраструктуры представлен на рисунке 4:
Рисунок 4 — Целевая инфраструктура.
Проведя несложные работы, мы получили инфраструктуру с требуемой доступность и надежностью. Минимизировали потенциальные простои, сбои и упростили дальнейшую поддержку.
Передача инфраструктуры на поддержку
Выполнив модернизацию ИТ-инфраструктуры, назначается инженер поддержки, который отвечает за объект.
Инженер на постоянной основе проводит регламентные работы, решает обращения пользователей, а самое главное — отрабатывает триггеры системы мониторинга.
Важно: нельзя поддерживать качество обслуживания при откровенном бардаке в ИТ-инфраструктуре. Поэтому сначала наводим порядок, а далее обеспечиваем поддержку.
Необходимо объективно оценивать срок восстановления и формировать правильные ожидания у бизнеса. Лучше двигаться поэтапно (по мере оптимизации инфраструктуры) к сокращению сроков простоя и восстановления сервисов.