[Перевод] Как улучшить понимание чисел в языковых моделях?
Привет, на связи Юлия Рогозина, бизнес-аналитик Шерпа Роботикс. Сегодня я перевела для вас статью про то, какие недостатки есть у языковых моделей в плане вычислений, а также, как учёные продолжают совершенствовать методы решения простейших задач.
Математические и логические способности больших языковых моделей (LLM) в настоящее время весьма впечатляют, они способны решать задачи на уровне аспиранта или даже более сложные, такие как олимпиадные задачи, задачи национального экзамена GAOKAO и задачи по математике университетского уровня. Однако, при более внимательном изучении результатов работы моделей было обнаружено, что, несмотря на демонстрируемое ими замечательное мастерство в подходах к решению задач, они часто испытывают трудности с базовым пониманием и обработкой чисел.
Подобно небрежному студенту, который заявляет: «Я знаю, как это сделать, но у меня не получилось».
Некоторые из этих ошибок довольно удивительны, например, убеждение, что 9.11 > 9.9, или ошибки в простом сложении 8/7 + 3/5. Эти ошибки являются основной причиной галлюцинаций при работе с математическими, логическими и аналитическими задачами, поскольку модель представляет, казалось бы, правильные подходы к решению задачи, но в конечном итоге получает неверные результаты. Поэтому исследование и улучшение фундаментальных «способностей к пониманию и обработке числовой информации» (NUPA) моделей имеет решающее значение.
Однако в современных исследованиях способность к рассуждению и NUPA часто тестируются совместно, как на классических наборах данных, таких как GSM8k, MATH, MMLU, так и в более сложных тестах, упомянутых выше. Например, задача в GSM8k звучит так: «Наталия продала 48 комплектов спортивных костюмов в апреле, а затем продала вполовину меньше комплектов в мае. Сколько комплектов Наталия продала всего в апреле и мае?» Решение этой задачи требует двух аспектов: с одной стороны, математических рассуждений, включающих понимание текста, извлечение необходимой информации, формулирование математических уравнений (или поиск других методов решения), решение уравнений или выполнение алгоритма и получение результата; с другой стороны, оно также требует понимания и обработки чисел, приведенных в задаче или полученных в качестве промежуточных результатов на каждом шаге, таких как 48/2 = 24 и 48 + 24 = 72. Хотя обе эти способности необходимы для правильного решения задач, тесты на таких наборах данных не различают их.
Более серьезная проблема заключается в том, что числовой контент в этих наборах данных часто преднамеренно упрощен. В различных экзаменационных вопросах для того, чтобы сосредоточиться на оценке понимания учащимися математических концепций — таких как составление правильных уравнений и применение соответствующих теорем — числа как в вопросах, так и в ответах часто специально выбираются целыми числами. Однако в реальных сценариях это не так.
Несмотря на важность NUPA, до сих пор отсутствует точная, подробная и всеобъемлющая формализация, измерение и анализ этой фундаментальной способности. В данной статье авторы делают предварительный шаг к формализации NUPA в LLM. Они классифицировали числовые концепции и операции, обычно преподаваемые в начальной и средней школе, на четыре типа числовых представлений: целые числа, числа с плавающей точкой (конечные десятичные дроби), дроби и экспоненциальная запись, а также четыре категории способностей, включающие 17 задач. Сочетание этих представлений приводит к 41 осмысленной задаче, образуя наш бенчмарк NUPA (Таблица 1). Эти представления и задачи охватывают наиболее распространенные сценарии, связанные с пониманием и обработкой чисел, которые обычно не представляют сложности для человека, поскольку мы читаем, используем или обрабатываем такие числа практически каждый день.
На этом бенчмарке авторы тщательно тестировали несколько передовых LLM, включая -4o, Llama-3.1 и Qwen2. Они просили модели напрямую выводить ответы без вызова внешних инструментов. Хотя последние LLM хорошо справляются с некоторыми простейшими задачами, их производительность значительно снижается, когда задачи становятся немного сложнее (например, умножение, операции по модулю или вычисления на основе цифр) или когда представление чисел выходит за рамки простых целых чисел.
В целом неудовлетворительная производительность подчеркивает значительное несоответствие между заявленными высокими математическими рассуждениями и низкими практическими, повседневными способностями к пониманию и обработке чисел в современных LLM.
Для решения этой проблемы авторы исследовали три категории подходов к улучшению NUPA моделей.
Первая категория методов направлена на улучшение NUPA моделей на этапе предварительного обучения, включая альтернативную токенизацию, специально разработанное позиционное кодирование (PE), изменение числовых форматов (например, дополнение нулями, указание индекса (index-hint и обратное представление). Они оценивали и анализировали их на новом бенчмарке, проверяя их эффективность/неэффективность для соответствующих задач/представлений, что выходит за рамки предыдущих оценок, проводившихся преимущественно на задачах сложения/умножения целых чисел. Кроме того, авторы обобщили эти методы в три механизма: упрощение процесса рассуждения, содействие выравниванию цифр и обеспечение регуляризации, и обсуждаем потенциал применения этих механизмов к более широкому диапазону числовых представлений.
Вторая категория подходов направлена на улучшение NUPA уже обученной модели. Исследователи обнаружили, что, хотя простое прямое дообучение может значительно повысить производительность NUPA, применение упомянутых выше методов (PE, форматов данных и токенизаторов) на этом этапе может иметь неблагоприятные последствия. Они тестировали различные настройки и конфигурации дообучения, но ни одна из них не смогла достичь производительности, равной или превосходящей исходную модель. Результаты исследования показывают, что эти модификации могут значительно нарушать устоявшееся поведение моделей или конфликтовать с их существующими знаниями, что приводит к снижению производительности.
Таблица 1: Обзор задач теста NUPA. Четыре строки представляют четыре числовых представления, а 17 столбцов соответствуют различным задачам. ✓- 41 задача включена в тест. ✗- не включена, слишком сложно ⃝ — не включена напрямую, но может быть легко адаптировано из включенной задачи. − не применимо.
В заключение, авторы обсудили потенциал использования методов «цепочки рассуждений» (CoT) для обработки числовой информации. Хотя методы CoT позволяют разбить сложные задачи на более простые подзадачи и значительно повышают вероятность получения правильных ответов, их недостатки — такие как потребление большого контекстного окна и необходимость увеличенного времени обработки — становятся особенно очевидными в числовых задачах. Они тестировали общий метод CoT, известный как RFFT, и обнаруживаем, что для более сложных задач (таких как задачи со сложностью O (n²), включая умножение, деление и упрощение дробей) методы «цепочки рассуждений» сталкиваются с проблемами масштабируемости, что затрудняет их применение в практических сценариях. Следует отметить, что в этой статье не рассматриваются методы использования инструментов для NUPA, поскольку
1) необходимо было изучить самодостаточную NUPA LLM,
2) вызов внешних инструментов при встрече с числами увеличивает задержку вывода,
3) авторы считают, что NUPA без инструментов является необходимым навыком для общего искусственного интеллекта (AGI).
В итоге, исследователи предложили более всеобъемлющий бенчмарк для оценки базовых способностей к пониманию и обработке числовой информации (NUPA) в LLM, оценили производительность нескольких передовых LLM на нём и дополнительно изучаем три категории подходов к улучшению NUPA: предварительное обучение, дообучение и CoT. Результаты показывают, что существующих исследований недостаточно для полного решения проблемы NUPA, несмотря на то, что это фундаментальная способность для решения многих более сложных задач. Авторы надеются, что, представив систематическую классификацию и более всестороннюю оценку NUPA, смогут привлечь больше внимания сообщества к этой важной, но часто упускаемой из виду фундаментальной способности.
Заключение
Как мы уже поняли из статьи, простые для нас задачи — являются сложными для языковых моделей и наоборот. Но прогресс не стоит на месте и ведутся исследования по повышению эффективности языковых моделей в простейших математических задачах. В будущем, это позволит повысить достоверность информации из языковых моделей, которые внедряются всё в большее количество процессов в нашей повседневной жизни.