[Перевод] Краткий обзор LLM бенчмарков

ttp5pncsmi72hdqnfo4e1d_2af0.jpeg


Когда мы говорим о бенчмаркинге LLM в какой-то предметной области, то имеем в виду две разные концепции: бенчмарки моделей LLM и бенчмарки систем LLM. Бенчмаркинг моделей LLM заключается в сравнении базовых моделей общего назначения (например, GPT, Mistral, Llama, Gemini, Claude и так далее). Нам не следует вкладывать ресурсы в их сравнение, потому что: 1. Для них существуют публикуемые таблицы лидеров, 2. В использовании этих моделей существует множество нюансов (например, изменчивость модели, промт, сценарий использования, качество данных, конфигурация системы), что снижает полезность обсуждения их высокоуровневых параметров, 3. Важнее точности модели могут быть другие факторы: локальность данных, соответствие требованиям защиты конфиденциальности, поставщик облачных услуг, степень возможности кастомизации (например, fine-tuning или повторного обучения).

Что мы должны обсуждать, так это бенчмаркинг систем LLM. Это осмысленный и важный процесс, при котором мы рассматриваем применение конкретных моделей LLM (вместе с промтом и конфигурацией системы) в наших конкретных сценариях использования. Нам следует курировать датасеты из конкретных предметных областей, задействовать в их разметке и людей, и LLM для создания «золотого» датасета, позволяющего оценивать вносимые нами постоянные улучшения. Можно даже рассмотреть возможность публикации «золотых» датасетов бенчмарков.

Контекст


За выходные я прочитал пару документов (см. ссылки в конце статьи) об оценке и бенчмаркинге LLM, и в этой статье подведу краткий итог прочитанного. Надеюсь, это будет хорошее введение для тех, кого интересует данная тема.

Модель LLM и система LLM


При обсуждении бенчмаркинга существует разница между моделями LLM и системами LLM. Точность чистой модели LLM оценивается среди серии моделей, применимых в широком спектре сценариев использования. Надо осознавать, что лишь небольшая группа людей из компаний OpenAI, Anthropic, Google и Meta* занимаются исследованием этого, потому что их работа заключается в обучении базовых моделей общего назначения. Однако большинство практикующих разработку ML интересует то, как LLM показывает себя в конкретном сценарии использования в системе, а также то, приносит ли LLM какую-нибудь пользу бизнесу. То есть сравнение нужно выполнять в конкретном контексте, а затем оценивать различные показатели системы LLM, и в том числе:

Размерность бенчмаркинга


При оценке показателей LLM существует множество размерностей. Ниже представлена краткая таблица с наиболее популярными из них. Процесс бенчмаркинга должен подразумевать некие критерии по каждой из этих размерностей: процент правильно отвеченных вопросов, процент неправильно отвеченных и процент ситуаций, когда модель не знает ответа.

Сценарии использования LLM


При обсуждении конкретных сценариев использования LLM чаще всего говорят о следующих:

Эталонные датасеты


При оценке точности важно понять, что же является эталоном. Датасет, содержащий эталонные данные, часто называют «золотым» датасетом. Стоит отметить, что чаще всего не существует эталона, есть только датасет с разметкой или ответами живых специалистов. Ниже перечислены самые известные датасеты или тесты для различных целей. Их часто применяют для бенчмаркинга опенсорсных моделей. Многие публичные таблицы лидеров LLM (пример 1, пример 2) сравнивают между собой опенсорсные LLM при помощи этих датасетов.

LLM как механизм оценки


Создание эталонного датасета — это нетривиальная по множеству причин задача: пользовательская обратная связь и другие «источники истины» крайне ограничены, а часто и вовсе не существуют;, но даже когда разметка живыми людьми возможна, она всё равно дорого стоит. Поэтому многие исследуют возможности LLM в генерации синтетических эталонов, которые можно использовать для оценки других систем. Например, «Judging LLM-as-a-judge» и оценка Vicuna с использованием GPT-4 в качестве судьи. G-Eval — это новый фреймворк Microsoft, который использует LLM для Eval, состоящих из двух частей: первая генерирует этапы оценки, а вторая использует сгенерированные этапы для создания окончательной численной оценки.

Что ещё?


При анализе способов использования LLM в системах следует учитывать множество аспектов. Например, способ определения семантической схожести для оценки релевантности, варианты эмбеддингов предложений в векторы (например, Sentence Transformer или Universal Sentence Encoder). Некоторые модели чувствительны к промтам и требуют дополнительной стандартизации и исследований в этом направлении. Кроме того, существуют и аспекты создания векторной базы данных и оркестрирования рабочего процесса LLM; необходимо принять решение, разворачивать ли реплицируемые LLM (для оптимизации пропускной способности) или разделённые (для оптимизации задержек), и так далее.

Справочные материалы


  1. [2308.04624] Benchmarking LLM powered Chatbots: Methods and Metrics,
  2. MEGAVERSE: Benchmarking Large Language Models Across Languages,
  3. LLM Benchmarking: How to Evaluate Language Model Performance | by Luv Bansal,
  4. The Guide To LLM Evals: How To Build and Benchmark Your Evals | by Aparna Dhinakaran | Towards Data Science,
  5. Evaluating LLM Performance: A Benchmarking Framework on Amazon Bedrock | by Ali Arabi | Feb, 2024 | Medium,
  6. A Gentle Introduction to LLM Evaluation — Confident AI,
  7. G-EVAL: NLG Evaluation using GPT-4 with Better Human Alignment:  https://arxiv.org/pdf/2303.16634.pdf.
  8. The Definitive Guide to LLM Benchmarking — Confident AI

© Habrahabr.ru