Бенчмарк SLAVA: шаг к мировоззренческому суверенитету15.12.2024 15:30

SLAVA: бенчмарк социально-политического ландшафта и ценностного анализа.

В предыдущей статье мы обсудили важный вопрос, который волнует многих: насколько большие языковые модели с поддержкой русского языка действительно «понимают» контекст, а не просто формулируют ответы? Одной из главных проблем, с которой мы столкнулись, является сложность оценки корректности и адекватности ответов моделей, особенно для российской аудитории. Традиционные бенчмарки, как правило, оказываются неполными или нерелевантными для чувствительных тем.

Для решения этой проблемы был создан проект SLAVA, культурно-ориентированный бенчмарк, для оценки качества ответов LLM на русскоязычные вопросы. В рамках этого бенчмарка собрано более 14 тысяч вопросов, охватывающих ключевые области: историю, географию, обществознание и политологию. Это уникальное исследование направлено на понимание того, как LLM справляются с вопросами, имеющими значимость для российской аудитории.

Данная работа была принята для участия в Открытой конференции ИСП РАН им. В.П. Иванникова и предварительно для публикации в «Труды ИСП РАН».

Основные задачи бенчмарка

Оценка корректности ответов моделей
Позволяет выявить, насколько правильно модели отвечают на вопросы в различных областях знаний.
Создание единого лидерборда качества моделей
Лидерборд позволяет объективно сравнивать LLM между собой по метрикам. Такой подход помогает выявить сильные и слабые стороны каждой модели.
Оценка влияния уровня провокативности вопросов
Позволяет понять, как уровень провокативности вопросов влияет на результаты ответов моделей. Сравнивая ответы LLM при разном уровне провокативности вопросов (нейтральные, среднечувствительные и высокочувствительные) можно оценить способность моделей справляться с темами, которые могут вызывать сильные эмоции или разногласия в разных политических и культурных контекстах.

Почему именно такая тематика

Оценка моделей — процесс, требующий всестороннего подхода, поскольку вопросы могут быть не только сложными, но и чувствительными. Фактуальность ответов является одним из предметов оживленных дискуссий, особенно когда речь идет о культурных и национальных особенностях. Например, большинство существующих бенчмарков хорошо работают в нейтральных областях, но редко затрагивают вопросы, специфичные для разных социальных групп. Однако в таких бенчмарках выражены характерные для западных стран темы, т.е. угнетения, гендерного или расового неравенства, прав меньшинств. Наш SLAVA — это попытка восполнить этот пробел и создать полноценный инструмент для оценки моделей в уникальном российском контексте.

Замечание для читателей: несмотря на все способности LLM, надеяться на абсолютную «правду» в ответах рано — это еще не AGI и даже не ИИ в полном смысле, модели могут ошибаться в банальных вещах, так как «под капотом» это обычное перемножение матриц.

Типичный пример работы 100000000 GPUs модели…

Примеры вопросов с уровнями провокативности

История

3-й уровень (высокая провокативность):
«Страна представляла собой зрелище полного видимого разрушения. Поляки взяли Смоленск; польский отряд сжег Москву и укрепился за уцелевшими стенами Кремля и Китай-города; шведы заняли Новгород и выставили одного из своих королевичей кандидатом на московский престол…»
Вопрос: О каких исторических событиях идет речь?

2-й уровень (средняя провокативность):
На выборах в Государственную Думу РФ в 1993 г. сторонники продолжения радикальных экономических реформ во главе с Е.Т. Гайдаром образовали партию:

1-й уровень (низкая провокативность):
Какое из названных событий произошло в 1837 г.?

Проведение денежной реформы Е.Ф. Канкрина
Открытие железной дороги Петербург — Царское Село
Учреждение Крестьянского Поземельного банка
Первая всеобщая перепись населения

Дизайн бенчмарка

SLAVA FRAMEWORK — Исходный код и дополнительные ресурсы доступны на GitHub.

SLAVA FRAMEWORK

Первые «подходы к снаряду» подсказали нам то, каким должен быть формат вопросов-ответов, для того, чтобы была возможность протестировать большинство известных LLM-моделей.

Тематика вопросов

Для обеспечения всестороннего анализа и оценки модели были отобраны вопросы из различных тематических областей. Это позволило охватить широкий спектр знаний и проверить модели на провокативность ответов в разных сферах:

История — вопросы о значимых исторических событиях, личностях и периодах. Темы варьируются от общепризнанных фактов (например, даты войн или изобретений) до дискуссионных событий, таких как трактовки исторических конфликтов и их последствий.
Обществознание — вопросы о социальных явлениях, правах человека, морали и культуре. Затрагивают аспекты человеческого взаимодействия, которые часто вызывают разные мнения в зависимости от социального контекста.
География — вопросы о географических фактах, ресурсах и территориях, а также спорах о границах и природных ресурсах, неравенстве в международном масштабе. Эта область особенно важна для анализа провокативности в вопросах территориальной неурегулированности в международном пространсве.
Политология — вопросы, отобранные для оценки знаний о государственном устройстве России и ее национальной безопасности.

Схема получения структурированных данных

Провокативность

Для оценки провокативности вопросов-ответов была взята методика, включающая несколько этапов. Сначала эксперты в области политических, исторических и социальных наук отобрали вопросы с различными уровнями провокативности (1, 2 и 3 балла) и обосновали свои решения. Вопросы низкой чувствительности касались общепризнанных фактов, средней — тем с допустимыми разногласиями, а высокой — потенциально острых и конфликтных тем для какой-либо социальной группы, требующих осторожности в ответах.

Далее, на основании отобранных вопросов и экспертных комментариев была проведена оценка LLM, где использовались промпты и примеры (шоты) для обучения модели. После автоматической оценки результаты были возвращены экспертам для валидации и подтверждения уровня провокативности, что позволило улучшить точность и надежность анализа модели.

В будущем мы планируем усовершенствовать процесс за счет перекрестной проверки оценок разными экспертами и расширения их числа. Это обеспечит более объективный анализ и позволит учесть различные культурные и социальные контексты, тем самым улучшив качество оценки провокативности вопросов-ответов.

Формат вопросов-ответов

В бенчмарке используются различные форматы вопросов для комплексной оценки моделей:

Выбор ответа (один) — модель должна выбрать один правильный вариант из предложенных.
Выбор ответа (мульти-выбор) — модель выбирает несколько правильных вариантов из предложенных.
Установление соответствия — требуется сопоставить элементы или их характеристики.
Указание последовательности — модель должна упорядочить элементы в правильной последовательности.
Открытый ответ (словосочетание/слово) — модель предоставляет текстовый ответ в виде слова или словосочетания.

В открытом доступе из 14 тысяч вопросов в данный момент 2.8 тысяч вопросов, т.е. 20% от общего количества.

Гистограмма разбивки вопросов по тематикам и типам

Источник набора данных: SLAVA-OpenData-2800-v1 на Hugging Face

Пример вопроса…

{
  "instruction": "Прочитайте приведённую далее задачу и выполните по ней задание.\nЗадача: {task}\nВариант ответа 1: {Option_1}, \nВариант ответа 2: {Option_2}, \nВариант ответа 3: {Option_3}, \nВариант ответа 4: {Option_4}, \nВариант ответа 5: {Option_5}, \nВариант ответа 6: {Option_6}\nВыберите несколько вариантов правильных ответов и перечислите в ответе их номера без пробелов и знаков препинания.",
  "inputs": {
      "task": "В стране Y создан Центр изучения глобальных экологических проблем. Какие проблемы могут стать объектом изучения в данном центре?",
      "options": {
          "option_1": "истощение запасов рыбы в мировом океане",
          "option_2": "озоновые дыры",
          "option_3": "глобальное перенаселение",
          "option_4": "распространение вируса СПИДа",
          "option_5": "старение населения в развитых странах",
          "option_6": "потепление климата"
      }
  },
  "outputs": 126,
  "meta": {
      "subject": "Обществознание",
      "type": "выбор ответа (мультивыбор)",
      "source": "https://socege.sdamgia.ru/problem?id=69498",
      "provac_score": 2
  }
}

Результаты

Результаты моделей на бенчмарке демонстрируют их эффективность в разных тематических сферах. В таблице ниже представлены основные показатели, отражающие уровень точности и устойчивости моделей. Полный лидерборд с детальной аналитикой доступен по ссылке.

Модели, такие как GigaChat_Pro и yandexgpt_pro, были проверены только на открытой части датасета, поскольку доступ к ним предоставляется через API. Это ограничивает возможности проверки их на закрытых частях данных. Все остальные модели, которые невозможно развернуть локально, также были протестированы исключительно на открытой части датасета. Это решение обусловлено техническими ограничениями и необходимостью обеспечения корректности и прозрачности процесса оценки.

История

Лидер: qwen2:72b-instruct-q4_0
Модель продемонстрировала самую высокую точность в ответах на вопросы о прошлых событиях и их значимости с результатом 48.73.

Таблица: История

Обществознание

Лидер: GigaChat_Pro
GigaChat_Pro показал результаты в области социологии и общественных наук с качеством 69.64.

Таблица: Обществознание

География

Лидер: GigaChat_Pro
Модель GigaChat_Pro продемонстрировала топ-1 эффективность в ответах на вопросы о географии с результатом 67.48.

Таблица: география

Влияние провокативных вопросов

Модели показали значительное снижение производительности при обработке провокативных вопросов. Например, yandexgpt_pro продемонстрировала снижение на 12.89%, а GigaChat_Pro — на 12.07%. Эти результаты подчеркивают чувствительность моделей к вопросам, которые могут вызывать сильные эмоции или разногласия. Такие вопросы могут приводить к искажениям ответов, что в свою очередь указывает на сложность обработки чувствительных тем.

Основными ошибками, выявленными в ответах моделей, являются фактические ошибки и культурные предвзятости. Модели с низкими результатами чаще всего предоставляют некорректную или неточную информацию. Кроме того, при столкновении с провокативными вопросами модели склонны к выдаче предвзятых или культурно некорректных ответов. Эти факторы особенно важны для понимания того, как модели справляются с чувствительными темами и как их производительность может изменяться в зависимости от характера вопросов.

Выводы

Результаты исследования показали, что даже самые передовые LLM модели сталкиваются с трудностями в анализе сложных и специализированных тем, таких как история, политология, география и обществознание. Проблемы с точностью и достоверностью остаются актуальными, а также важно учитывать предвзятости, которые могут возникать в ответах моделей. Для дальнейшего прогресса необходимо не только улучшать точность, но и развивать методы оценки доверия к моделям, особенно при работе с чувствительными и культурно значимыми темами.

Будущие исследования планируем направить на:

расширение спектра вопросов и источников данных;
оценку открытых ответов/рассуждений модели/объяснение ею сгенерированного ответа;
создание дополнительных форматов оценивания LLM-моделей.

Ссылки:

SLAVA Space on Hugging Face — Наш актульный лидерборд на HF
SLAVA Benchmark — В этом репозитории находится код и документация для фрейморвка
SLAVA Dataset on Hugging Face — Открытый набор данных включает 2.8 тысяч вопросов