[Перевод] Самые популярные LLM бенчмарки

qimzdt2vigaa8zm19re3gmqeueu.jpeg


Зачем использовать бенчмарки для оценки LLM?


Бенчмарки LLM помогают оценивать точность больших языковых моделей, обеспечивая стандартизированную процедуру измерения метрик выполнения различных задач.

Бенчмарки содержат все структуры и данные, необходимые для оценки LLM, в том числе:

  • «Эталонные» датасеты (релевантные задачи/вопросы/промты с ожидаемыми ответами)
  • Способы передачи входных промтов в LLM
  • Способы интерпретации/сбора ответов
  • Вычисляемые метрики и оценки (а также способы их вычисления)


Всё вместе это позволяет согласованным образом сравнивать точность разных моделей. Но какой же бенчмарк LLM стоит использовать? В основном это зависит от сценария использования, то есть от того, для чего вы намереваетесь применять LLM. Давайте разбираться!

Лучшие бенчмарки LLM


Если вам нужно универсальное решение, то в HuggingFace Big Benchmarks Collection можно найти достаточно полный список широко применяемых бенчмарков. Он содержит бенчмарки, внесённые в популярный OpenLLM Leaderboard, и дополняет их другими разнообразными важными бенчмарками.

Ниже мы представим некоторые из самых популярных бенчмарков LLM, разбитых на категории по сценариям использования:

Бенчмарки рассуждений, бесед, вопросов и ответов


Такие бенчмарки оценивают способности моделей к рассуждениям, аргументации и ответам на вопросы. Некоторые из них предназначены для конкретных предметных областей, другие более общие.

HellaSwag (GitHub)


Этот бенчмарк делает упор на инференсах здравого смысла на естественном языке, то есть проверяет, может ли модель действительно завершать реалистичные предложения человека. Он содержит вопросы, которые тривиальны для людей, но могут представлять сложность для моделей.

Датасет содержит 70 тысяч вопросов с несколькими вариантами ответов (основанных на activitynet или wikihow) и с состязательным множеством сгенерированных машиной (и верифицированных человеком) ошибочных ответов. Модели должны выбрать один из четырёх вариантов того, как можно продолжить предложение.

BIG-Bench Hard (GitHub)


Этот бенчмарк основан на BIG-Bench (Beyond the Imitation Game Benchmark), который содержит более двухсот задач в широком спектре типов задач и предметных областей.

В BIG-Bench Hard упор сделан на подмножество из 23 самых сложных задач BIG-Bench. Это задачи, в которых оценки модели не могут превзойти показатели среднестатистического живого оценщика (до использования бенчмарка).

SQuAD (GitHub)


Stanford Question Answering Dataset (SQuAD) тестирует понимание прочитанного. Этот бенчмарк содержит 107785 пар вопросов и ответов по 536 статьям Википедии; пары составлены людьми и собраны при помощи краудсорсинга. Кроме того, SQuAD 2.0 содержит 50 тысяч вопросов, на которые невозможно ответить, для тестирования того, могут ли модели определять, когда исходный материал не предусматривает ответа, и не отвечать на него.

Отдельный набор тестов оставлен конфиденциальным, чтобы не скомпрометировать целостность результатов (например, чтобы модели не могли на нём обучаться). Чтобы оценить модель по набору тестов SQuAD, необходимо передать её разработчикам бенчмарка.

IFEval (GitHub)


IFEval оценивает способность моделей следовать инструкциям на естественном языке. Он содержит более пятисот промтов с поддающимися проверке инструкциями, например, «напиши более 400 слов» или «упомяни ключевое слово ИИ не менее трёх раз». IFEval содержится в Open LLM Leaderboard Hugging Face.

MuSR (GitHub)


Датасет MuSR (Multi-step Soft Reasoning) создан для оценки моделей в задачах с цепочками рассуждений на основе здравого смысла, описанными на естественном языке. MuSR обладает двумя важными характеристиками, отличающими его от других бенчмарков:

  • Алгоритмически сгенерированный датасет со сложными задачами
  • Датасет содержит произвольные тексты, соответствующие предметным областям рассуждений из реального мира.


MuSR требует от моделей применять многоэтапные рассуждения для решения детективных задач про убийства, ответов на вопросы о расположении объектов и оптимизации распределения ролей в командах. Модели должны парсить длинные тексты для того, чтобы понять контекст, а затем применять рассуждения на основании этого контекста. MuSR включён в Open LLM Leaderboard Hugging Face.

MMLU-PRO (GitHub)


MMLU-PRO расшифровывается как Massive Multitask Language Understanding — Professional. Это улучшенная версия стандартного датасета MMLU.

В этом бенчмарке модели должны отвечать на вопросы с десятью вариантами ответов (а не с четырьмя, как в обычном MMLU); некоторые вопросы требуют рассуждений. Качество датасета выше, чем у MMLU, который содержит шумные данные и загрязнение данных (то есть многие новые модели, скорее всего, будут обучаться на содержащихся в нём вопросах), что снижает его сложность для модели, а значит, и его полезность. MMLU-PRO считается более сложным, чем MMLU. MMLU-PRO включён в Open LLM Leaderboard Hugging Face.

MT-Bench


MT-Bench — это многоэтапный бенчмарк (с уточняющими вопросами), оценивающий способность модели участвовать в целостных, информативных и увлекательных беседах. Этот бенчмарк делает упор на способность создавать поток беседы и следовать инструкциям.

MT-Bench содержит 80 вопросов и 3300 ответов (сгенерированных шестью моделями), отражающих человеческие предпочтения. В бенчмарке используется методика LLM-as-a-judge: сильные LLM, например, GPT-4, оценивают качество ответов модели. Ответы аннотировались аспирантами, имеющими опыт в соответствующих предметных областях.

Бенчмарки конкретных предметных областей


GPQA (GitHub)


GPQA (Graduate-Level Google-Proof Q&A Benchmark) — это сложный датасет из 448 вопросов с вариантами ответов, охватывающих сферы биологии, физики и химии. Вопросы в GPQA можно считать очень сложными: при ответах на них специалисты, в том числе и со степенью PhD, смогли достичь точности примерно в 65%.

Вопросы сложны настолько, что их можно считать защищёнными от гугления, то есть даже при свободном доступе к вебу и более получаса исследования темы валидаторы, не владеющие предметной областью (например, биологи, отвечающие на вопросы по химии), могут достичь точности в 34%. GPQA включён в Open LLM Leaderboard Hugging Face.

MedQA (GitHub)


Medical Question Answering — это бенчмарк оценки моделей вопросами с вариантами ответов, созданный на основе экзаменов на получение медицинских лицензий США. Этот бенчмарк включает в себя три языка со множеством вопросов: английский (12 тысяч вопросов), упрощённый китайский (34 тысяч вопросов) и традиционный китайский (14 тысяч вопросов).

PubMedQA (GitHub)


PubMedQA — это датасет вопросов о биомедицинских исследованиях. Модели должны отвечать на вопросы с тремя вариантами ответов: да, нет или возможно.

При ответах на вопросы о переданных модели биомедицинских исследованиях требуются рассуждения. В датасете представлены наборы вопросов и ответов, размеченных специалистами (1 тысяча), неразмеченных (61,2 тысячи) и сгенерированных искусственно (211,3 тысячи).

Бенчмарки кодинга


Бенчмарки генерации кода ПО мы рассмотрели в отдельном посте: Comparing LLM benchmarks for software development.

Математические бенчмарки


GSM8K (GitHub)


Задача этого бенчмарка заключается в оценке многоэтапных математических рассуждений. GSM8K — это бенчмарк низового уровня, состоящий из 8500 математических задач начальной школы, которые способен решить способный ученик средней школы. Датасет разделён на 7500 обучающих задач и 1000 тестовых задач.

Задачи (написанные живыми составителями задач) лингвистически разнообразны и требуют для решения 2–8 шагов. Решение требует от LLM использования последовательности основных арифметических операторов (+ — / *).

MATH (GitHub)


Датасет MATH содержит 12500 математических задач соревновательного уровня. В нём есть эталонные данные: каждая из задач имеет пошаговое решение. Это позволяет оценить способность LLM к решению задач. MATH включён в Open LLM Leaderboard Hugging Face.

MathEval (GitHub)


MathEval предназначен для тщательной проверки математических способностей LLM. Его разработчики задумывали MathEval как стандартный образец для сравнения способностей моделей к математике.

Это коллекция из 20 датасетов (включая GSM8K и MATH), покрывающих широкий спектр областей математики более чем 30 тысячами математических задач. MathEval обеспечивает исчерпывающую проверку различных сложностей и подразделов математики (арифметики, задач с соревнований для начальной и средней школы, а также более сложных подразделов). Наряду с оценкой моделей MathEval также предназначен для дальнейшего совершенствования их математических способностей. При необходимости его можно расширять новыми математическими датасетами оценки.

Бенчмарки, связанные с безопасностью


PyRIT


PyRIT расшифровывается как Python Risk Identification Tool для генеративного ИИ. Он ближе к фреймворку, чем к автономному бенчмарку, но всё равно остаётся полезным инструментом.

PyRIT — это инструмент для оценки надёжности LLM в широком спектре приносящих вред категорий. Его можно использовать для выявления приносящих вред категорий, в том числе сфабрикованного/необоснованного контента (например, галлюцинаций), неправильного использования (предубеждений, генерации зловредного ПО, джейлбрейкинга), запрещённого контента (например, оскорблений) и ущерба для конфиденциальности (кража личности). Этот инструмент автоматизирует задачи красной команды для базовых моделей, а потому делает вклад в усилия по обеспечению будущего развития ИИ.

Purple Llama CyberSecEval (GitHub)


CyberSecEval (результат работы проекта Meta* Purple Llama) делает упор на кибербезопасность моделей, используемых в кодинге. Заявляется, что это самый объёмный унифицированный бенчмарк кибербезопасности.

CyberSecEval обеспечивает проверку двух критически важных областей безопасности:

  • вероятность генерации небезопасного кода
  • подчинение законодательству в случае просьб о помощи в кибератаках.


Бенчмарк можно использовать для оценки того, насколько LLM готовы и способны помогать злоумышленникам в кибератаках. CyberSecEval имеет метрики для численной оценки рисков кибербезопасности, связанных с генерируемым LLM кодом. CyberSecEval 2 является усовершенствованной версией исходного бенчмарка, позволяющей также оценивать защиту от инъецирования промтов и зловредного использования интерпретатора кода.

Вывод: бенчмарки LLM для различных предметных областей


Приведённый в статье список должен помочь вам в выборе бенчмарков для оценки LLM в вашем сценарии использования. Какой был ни была предметная область или сфера применения, для выбора подходящей LLM всегда следует подбирать нужные бенчмарки.

*Организация Meta признана экстремистской на территории РФ.

© Habrahabr.ru