Виталий Лещук, эксперт «Тинькофф»: Как справиться с экстремальными нагрузками в высоконагруженных системах

19 Августа 2024 09:1019 Авг 2024 09:10 |
Поделиться

В основе привычных онлайн-операций — от перевода денег до заказа еды — лежат сложнейшие ИТ-системы, способные обрабатывать огромные объёмы данных в режиме реального времени. Но что происходит, когда эти системы сталкиваются с экстремальными нагрузками? Как обеспечить стабильность и безопасность данных миллионов пользователей? Об этом мы говорим с Виталием Лещуком, руководителем ИТ-инфраструктуры процессингового центра в «Тинькофф банке». Он расскажет о вызовах, с которыми сталкиваются ИТ-специалисты, работающие с высоконагруженными системами в банковской сфере, и о подходах, которые помогают им справиться с этими вызовами.

«Платформа позволяет снять проблему перегруженности ИТ-специалистов»

CNews: Виталий, у вас большой опыт работы в сфере финансовых технологий, поэтому вы точно знаете, насколько высока в реальности нагрузка ИТ-специалистов. Расскажите о ней.

Виталий Лещук: Одной из основных проблем является неравномерное распределение нагрузки. В пиковые периоды, например, перед праздниками или во время проведения масштабных акций, количество транзакций может значительно возрастать, создавая экстремальную нагрузку на системы. Это повышает риски сбоев, которые могут привести к финансовым потерям, нарушению работы сервисов и репутационным рискам для банка.

CNews: Как банки справляются с проблемой дефицита квалифицированных специалистов и высокой загруженностью имеющихся сотрудников?

Виталий Лещук: Многие компании делают ставку на автоматизацию процессов, внедряя специализированное программное обеспечение. Например, в нашем банке мы разработали платформу, которая отслеживает работу наших систем и в случае возникновения проблем предлагает алгоритмы их решения. Это позволяет нам более эффективно распределять задачи между сотрудниками с разным уровнем опыта, а также обучать новичков работе с реальными ситуациями.

CNews: Ваша платформа, насколько я понимаю, помогает решить проблему перегруженности специалистов. Можете рассказать подробнее, как именно ? Как вы формулируете задачи для сотрудников и как поддерживаете их в процессе решения?

Виталий Лещук: Да, платформа действительно создавалась с целью оптимизации работы команды и снижения рисков, связанных с человеческим фактором. В основе её работы лежит принцип «карты здоровья» системы. Она в режиме реального времени отслеживает множество параметров работы высоконагруженных сервисов, выявляет отклонения от нормы и автоматически сопоставляет их с базой знаний о возможных проблемах и способах их решения.

Если выявляется инцидент, платформа формирует задачу с указанием его типа и предлагает пошаговый алгоритм действий для его устранения. При этом учитывается уровень квалификации специалиста, которому назначена задача. Менее опытным сотрудникам предлагаются более подробные инструкции, а также возможность обратиться за помощью к более опытным коллегам или к системе подсказок.

Таким образом, платформа не только помогает быстрее и эффективнее решать возникающие проблемы, но и служит инструментом обучения для новых специалистов.

CNews: То есть, джуниор не должен решать все проблемы в ручном режиме? А что с сеньорами? Их роль не меняется?

Виталий Лещук: Верно, платформа берёт на себя функции диспетчера и помощника, позволяя специалистам сосредоточиться на более сложных и творческих задачах. Но это не умаляет роли опытных инженеров.

Сеньоры в нашей команде выступают в роли наставников, архитекторов и аналитиков. Они отвечают за разработку и совершенствование алгоритмов работы платформы, анализируют нестандартные ситуации, формируют новые знания о работе систем и обучают молодых специалистов.

CNews: А как вы помогаете джуниорам овладеть новыми навыками?

Виталий Лещук: Помимо самой платформы, которая в процессе работы предоставляет возможности для обучения, мы проводим регулярные тренинги, митапы и воркшопы. На них опытные инженеры делятся своими знаниями и опытом, рассказывают о новых технологиях и подходах к работе с высоконагруженными системами.

Важным элементом обучения является и система наставничества. Каждый новичок получает наставника из числа опытных специалистов, который помогает ему адаптироваться в команде, обучает нюансам работы и помогает решать сложные задачи.

«Собственная разработка стала более эффективным решением»

CNews: Почему вы решили разрабатывать собственную платформу, ведь на рынке есть готовые решения?

Виталий Лещук: Действительно, существует ряд готовых решений для мониторинга и управления высоконагруженными системами. Однако у них есть ряд недостатков. Во-первых, они не всегда учитывают специфику работы банковских систем, связанную с повышенными требованиями к безопасности, надежности и отказоустойчивости. Во-вторых, готовые решения могут быть избыточными по функционалу и, соответственно, более дорогими.

Мы проанализировали доступные на рынке решения и пришли к выводу, что разработка собственной платформы, адаптированной под наши потребности, будет более эффективным решением. Это позволило нам создать именно тот инструмент, который нам нужен, и интегрировать его с нашей ИТ-инфраструктурой.

CNews: Какие тренды в области управления высоконагруженными системами вы считаете наиболее перспективными?

Виталий Лещук: В ближайшие годы мы увидим дальнейшее развитие технологий искусственного интеллекта и машинного обучения в этой области. Уже сейчас эти технологии активно используются для анализа данных, прогнозирования нагрузки, выявления аномалий и автоматизации процессов.

Еще один важный тренд — это развитие облачных технологий. Все больше компаний переводят свои высоконагруженные системы в облако, что позволяет им добиться большей гибкости, масштабируемости и снизить затраты на ИТ-инфраструктуру.

Полный текст статьи читайте на CNews