LLM в телекоме, ЦОД и на периферии [исследования]

d868aa47ddce11f9cfd55199166e03db.jpg

Работа с большими языковыми моделями не только требует серьезных вычислительных ресурсов (например, облачных GPU), но и грамотного их использования. Зачастую инженерам приходится учитывать специфические особенности работы GPU-кластеров.

Сегодня обсудим примечательные материалы, посвященные работе с большими языковыми моделями (large language models, LLM) в дата-центрах и роли пограничных вычислений в развитии систем ИИ. 

Расскажем про ключевые находки и выводы.

Равномерная загрузка инфраструктуры

В новом исследовании «Characterization of Large Language Model Development in the Datacenter» сотрудники Shanghai AI Laboratory, учёные из Наньянского технологического университета, Пекинского университета и других научных организаций решили глубже изучить проблемы в управлении инфраструктурой в контексте разработки LLM.

В течение шести месяцев команда анализировала данные профилирования и мониторинга, статистику, а также журналы событий, связанные с разработкой LLM. Все эти данные собирали на базе собственного дата-центра. Инфраструктура была построена на графических процессорах A100. Для быстрого доступа к данным применялась параллельная файловая система с поддержкой NVMe. Обработку данных и управление тысячами GPU вели с помощью ПО для системной оптимизации — InternEvo.

Как заметили исследователи, рабочая нагрузка на инфраструктуру в пайплайне обучения ML-модели распределяется неравномерно. Задачи по предварительному обучению LLM составляли чуть более 3% от объема задач, выполняемых на GPU, при этом они потребляли до 94% доступных вычислительных ресурсов. И, наоборот, оценка качества моделей занимала порядка 90% от общего объема задач, но использовала только 0,8% ресурсов GPU. Более того, на разных этапах работы инфраструктура простаивала.

Авторы исследования также зафиксировали распространенные причины аппаратных сбоев. Чаще всего они возникали из-за нарушения сетевого соединения — в 147 случаях (из 2575 за время исследования). Что касается программной части в целом, то здесь наиболее часто возникали ошибки несоответствия типа данных — 620 инцидентов.

Инженеры использовали собранную ими информацию и разработали два решения, позволяющие справляться с выявленными сложностями. Первое сокращает число сбоев в работе LLM. Для этого используются эвристические правила, инструменты для поиска неисправных узлов и система автоматического перезапуска обучения с последней сохранённой контрольной точки. Второе решение позволяет своевременно получать информацию о качестве работы модели, помогает оптимизировать нагрузку на GPU.

Энергопотребление и мобильные форматы

Методы эффективной работы с GPU в процессе подготовки больших языковых моделей важны, однако не являются единственным предметом обсуждения в этой области. Очевидно, если увеличивать мощность инфраструктуры, возрастает не только сложность управления и равномерной загрузки, но и энергопотребление инфраструктуры. Этот вопрос также рассматривают, причем с применением самой технологии LLM — для повышения отказоустойчивости ЦОД и оптимизации их энергопотребления.

По оценкам авторов одной из подобных научных работ, сочетание LLM с алгоритмами принятия решений позволит снизить энергозатраты на 32%. Для решения этой задачи исследователи представили систему, которая анализирует энергопотребление и оценивает время выполнения вычислений. Специальный алгоритм управляет очередью задач и оптимизирует ресурсы GPU. Тесты показали, что система предоставляет более точные и информативные данные, чем традиционные инструменты планирования. Однако внедрение таких систем — не единственный способ снизить энергозатраты.

Некоторые эксперты работают над тем, чтобы вынести вычисления при использовании LLM за пределы ЦОД. Так, исследователи проанализировали современные решения и сложности, связанные с развитием подобных систем. Авторы работы «On-Device Language Models: A Comprehensive Review» провели обзор технологических архитектур и инструментов, которые позволяют оптимизировать модели для работы на мобильных устройствах. Одно из таких решений — фреймворк EdgeShard для инференса. Это — довольно свежий инструмент, который в конце весны этого года представила группа инженеров из Гонконга. Идея состоит в том, чтобы разделить работу с LLM на несколько устройств — как на периферии, так и в облаке (в зависимости от задачи). 

Другое решение — архитектура Processing-in-Memory. Она позволяет увеличить производительность в 4,5 раза и сократить энергопотребление на 71%, по сравнению с традиционными архитектурами. Что делает её подходящей для инференса LLM на мобильных устройствах с ограниченными ресурсами. 

В обзор также включены подходы, которые уменьшают количество параметров модели и делят обработку между несколькими моделями разной размерности. Эти решения позволяют запустить LLM на периферии с минимальными потерями производительности, сэкономив память. 

Направление действительно перспективное в силу того, что LLM стали частью мобильных устройств — они анализируют заметки, организуют файлы, генерируют контекстные ответы в чатах. Но встроить ресурсоёмкую LLM в компактное устройство не так и просто.

Автоматизированное управление инфраструктурой

Ожидается, что полноценное развёртывание сетей 6G в отдельных регионах начнётся в 2030-х, поэтому в индустрии постепенно развивают планы миграции. При этом для автоматизации управления высокопроизводительной инфраструктурой потребуются продвинутые решения. С этим также могут помочь большие языковые модели.

В научной работе по теме группа инженеров рассмотрела подходы к применению больших языковых моделей в телекоммуникациях. Авторы показали, как LLM может автоматизировать настройку сетей — например, с помощью перевода высокоуровневых политик в исполняемые команды. Учёные также представили систему, которая преобразует пользовательские запросы на естественном языке в дескрипторы сетевых служб. 

Специалисты отметили и потенциальные сложности в этой области. Так, чтобы использовать LLM в телеком-сфере, модели необходимо обучать на достаточно специфических данных о сетевой архитектуре, протоколах, технологиях передачи и приёма сигналов, а также о характеристиках оборудования. Решить подобного рода задачу способны только крупные телекомы, обладающие экспертизой и существенными сводами профильных данных, достаточных для качественного обучения.

В ещё одном недавнем исследовании о применении больших языковых моделей в телекоме исследователи предприняли попытку разработать первые рекомендации по внедрению систем ИИ в отрасли. Так, LLM уже используют для устранения неполадок в сетях передачи данных — например, в анализе журналов и отчетов.

Информационная безопасность

Киберзащита становится ещё одной значимой областью, где большие языковые модели находят применение. Например, помогают защищать сети от DDoS-атак. Такое решение представила команда инженеров из Университета Цинхуа при поддержке специалистов из Huawei. Разработанная ими ShieldGPT позволяет идентифицировать подобные угрозы. 

Ещё один пример — SecureBERT, обученный на 98 тыс. текстов (и 1 млрд слов) о киберугрозах. В его основе — книги, блоги, новости, отчёты, видеоролики с субтитрами, техническая документация и учебные пособия по теме информационной безопасности. Система способна помочь с анализом уязвимостей, классификацией вредоносного кода и фишинговых сообщений. Она также может служить инструментом для анализа киберинцидентах, распознавая неочевидные связи между элементами угроз.

В следующий раз мы продолжим обзор свежих исследований в области разработки систем искусственного интеллекта и больших языковых моделей. Рассмотрим работы, направленные на техническую реализацию LLM и вопросы управления такими технологиями. Расскажем, какие подходы предлагают исследователи, чтобы сделать внедрение систем ИИ безопасным (и что по этому поводу говорят регуляторы).

Habrahabr.ru прочитано 1786 раз