[Перевод] 1-битные LLM могут решить проблему энергопотребления ИИ16.06.2024 19:45

«Неточные» языковые модели меньше, быстрее и почти так же верны

Большие языковые модели, системы искусственного интеллекта, на которых работают такие чат-боты, как ChatGPT, становятся все лучше и лучше, но они также становятся все больше и больше, требуя все больше энергии и вычислительной мощности. Чтобы LLM были дешевыми, быстрыми и экологичными, их нужно уменьшить, в идеале — настолько, чтобы они могли работать непосредственно на устройствах вроде мобильных телефонов. Исследователи находят способы сделать это, радикально округляя множество высокоточных чисел, которые хранятся в воспоминаниях, до значения 1 или -1.

LLM, как и все нейронные сети, обучаются путем изменения силы связи между искусственными нейронами. Эти значения хранятся в виде математических параметров. Исследователи уже давно сжимают сети, уменьшая точность этих параметров — этот процесс называется квантованием, так что вместо 16 бит на каждый из них приходится 8 или 4. Теперь исследователи доводят точность до одного бита.

Как сделать 1-битный LLM

Существует два общих подхода. Один подход, называемый квантованием после обучения (PTQ), заключается в квантовании параметров сети с полной точностью. Другой подход, обучение с учетом квантования (QAT), заключается в обучении сети с нуля для получения параметров с низкой точностью. До сих пор PTQ был более популярен среди исследователей.

В феврале команда, в которую вошли Хаотонг Цинь (Haotong Qin) из ETH Zürich, Сянлун Лю (Xianglong Liu) из Университета Бейханг и Вэй Хуанг (Wei Huang) из Университета Гонконга, представила метод PTQ под названием BiLLM. Он аппроксимирует большинство параметров сети с помощью 1 бита, но некоторые важные веса, наиболее влияющие на производительность, представляет с помощью 2 битов. В одном из тестов команда провела бинаризацию версии LLM компании Meta — LLaMa, содержащей 13 миллиардов параметров.

Однобитные LLM открывают новые возможности для разработки аппаратных средств и систем, специально оптимизированных для работы с 1-битными LLM.
-Фуру Вэй, Исследовательский отдел Microsoft в Азии

Для оценки эффективности исследователи использовали метрику под названием «perplexity» (недоумение, замешательство), которая, по сути, является мерой того, насколько удивил обученную модель каждый последующий фрагмент текста. Для одного набора данных исходная модель имела показатель perplexity около 5, а версия BiLLM — около 15, что намного лучше, чем у ближайшего конкурента с бинаризацией, который набрал около 37 баллов (для perplexity более низкие цифры лучше). При этом модель BiLLM потребовала примерно десятую часть объема памяти по сравнению с оригиналом.

PTQ имеет ряд преимуществ перед QAT, говорит Ваньсянь Че (Wanxiang Che), специалист по информатике из Харбинского технологического института (Китай). Для PTQ не требуется собирать обучающие данные, не нужно обучать модель с нуля, а сам процесс обучения более стабилен. С другой стороны, QAT может сделать модели более точными, поскольку квантование заложено в модель с самого начала.

1-битные LLM успешно противостоят своим более крупным кузенам

В прошлом году команда под руководством Фуру Вэя (Furu Wei) и Шуминга Ма (Shuming Ma) из Исследовательского отдела Microsoft в Азии (Microsoft Research Asia) в Пекине, создала BitNet, первый 1-битный метод QAT для LLM. После изменения скорости, с которой сеть корректирует свои параметры, чтобы стабилизировать обучение, они создали LLM, которые показали лучшие результаты, чем те, что были созданы с помощью методов PTQ. Они все еще не были так хороши, как сети с полной точностью, но были примерно в 10 раз более энергоэффективны.

В феврале команда Вэя анонсировала BitNet 1.58b, в которой параметры могут быть равны -1, 0 или 1, что означает, что они занимают примерно 1,58 бит памяти на параметр. Модель BitNet с 3 миллиардами параметров справилась с различными языковыми задачами так же хорошо, как и модель LLaMA с полной точностью, с тем же количеством параметров и объемом обучения, но при этом она была в 2,71 раза быстрее, использовала на 72% меньше памяти GPU и потребляла на 94% меньше энергии GPU. Вэй назвал это «моментом истины». Кроме того, исследователи обнаружили, что по мере обучения более крупных моделей эффективность повышается.

Модель BitNet с 3 миллиардами параметров справилась с различными языковыми задачами так же хорошо, как и модель LLaMA с полной точностью.

В этом году команда под руководством Че из Харбинского технологического института опубликовала предварительный отчет о другом методе бинаризации LLM под названием OneBit. OneBit сочетает в себе элементы PTQ и QAT. Он использует предварительно обученный LLM с полной точностью для генерации данных для обучения квантованной версии. На одном наборе данных модель с 13 миллиардами параметров достигла оценки perplexity около 9, в то время как для модели LLaMA с 13 миллиардами параметров этот показатель составил 5. При этом OneBit занимала всего на 10 процентов больше памяти. Предположительно, на специализированных чипах она могла бы работать гораздо быстрее.

По словам Вэя из Microsoft, квантованные модели имеют множество преимуществ. Они могут помещаться на более компактных чипах, требуют меньше передачи данных между памятью и процессором и позволяют быстрее обрабатывать данные. Однако нынешнее оборудование не может в полной мере использовать преимущества этих моделей. LLM часто работают на графических процессорах, таких как Nvidia, которые представляют веса с высокой точностью и тратят большую часть энергии на их умножение. Новые аппаратные средства могли бы представлять каждый параметр как -1 или 1 (или 0), а затем просто складывать и вычитать значения, избегая умножения. «Однобитные LLM открывают новые возможности для разработки специального оборудования и систем, оптимизированных для работы с однобитными LLM», — говорит Вэй.

«Они должны расти вместе», — говорит Хуанг из Университета Гонконга о 1-битных моделях и процессорах. «Но это долгий путь для разработки нового оборудования».

Habrahabr.ru прочитано 5131 раз