GigaChat обогнал по качеству ChatGPT и расширил контекст до 32 тысяч токенов

dd65fcfa1a7acaa91b1e3d925241ba16.png

MMLU — Measuring Massive Multitask Language Understanding (ссылка), данный датасет состоит из 57 категорий. В замере использовали test часть датасета и few-shot подход, а конкретнее 5-shot. При таком подходе каждый запрос помимо инструкции и вопроса содержит 5 пар вопрос-ответ составленных из dev части датасета соответствующей категории для погружения модели в тему вопроса и формат ожидаемого ответа.

Пример сформированного запроса с 5-shot-ом:

The following are multiple choice questions (with answers) about abstract algebra
Find all c in Z_3 such that Z_3[x]/(x^2 + c) is a field.
A. 0
B. 1
C. 2
D. 3
Answer: B
Statement 1 | If aH is an element of a factor group, then |aH| divides |a|. Statement 2 | If H and K are subgroups of G then HK is a subgroup of G.
A. True, True
B. False, False
C. True, False
D. False, True
Answer: B
Statement 1 | Every element of a group generates a cyclic subgroup of the group. Statement 2 | The symmetric group S_10 has 10 elements.
A. True, True
B. False, False
C. True, False
D. False, True
Answer: C
Statement 1| Every function from a finite set onto itself must be one to one. Statement 2 | Every subgroup of an abelian group is abelian.
A. True, True
B. False, False
C. True, False
D. False, True
Answer: A
Find the characteristic of the ring 2Z.
A. 0
B. 3
C. 12
D. 30
Answer: A
Find all zeros in the indicated finite field of the given polynomial with coefficients in that field. x^5 + 3x^3 + x^2 + 2x in Z_5
Choose an answer from the options:
A. 0
B. 1
C. 0,1
D. 0,4
Answer:

Для замера инструктивных (то есть дообученных на диалогах, содержащих пользовательские инструкции и эталонные примеры их исполнения) моделей, данное описание задание следует разбить на разные сообщения. Мы взяли два варианта таких для таких замеров.

  1. 5-shot in system prompt

В этом формате инструкция и few-shot примеры находятся в system, а вопрос в user сообщении. Данный формат был выбран для корректного сравнения с open-source-моделями в открытом лидерборде (ссылка).

Пример одного запроса в формате чата:

[
    {
        "role": "system",
        "content": "The following are multiple choice questions (with answers) about abstract algebra\\n\\nFind all c in Z_3 such that Z_3[x]/(x^2 + c) is a field.\\nA. 0\\nB. 1\\nC. 2\\nD. 3\\nAnswer: B\\n\\nStatement 1 | If aH is an element of a factor group, then |aH| divides |a|. Statement 2 | If H and K are subgroups of G then HK is a subgroup of G.\\nA. True, True\\nB. False, False\\nC. True, False\\nD. False, True\\nAnswer: B\\n\\nStatement 1 | Every element of a group generates a cyclic subgroup of the group. Statement 2 | The symmetric group S_10 has 10 elements.\\nA. True, True\\nB. False, False\\nC. True, False\\nD. False, True\\nAnswer: C\\n\\nStatement 1| Every function from a finite set onto itself must be one to one. Statement 2 | Every subgroup of an abelian group is abelian.\\nA. True, True\\nB. False, False\\nC. True, False\\nD. False, True\\nAnswer: A\\n\\nFind the characteristic of the ring 2Z.\\nA. 0\\nB. 3\\nC. 12\\nD. 30\\nAnswer: A"
    },
    {
        "role": "user",
        "content": "(Z,*) is a group with a*b = a+b+1 for all a, b in Z. The inverse of a is\\nChoose an answer from the options:\\nA. 0\\nB. -2\\nC. a-2\\nD. (2+a)*-1\\nAnswer: "
    }
]
  1. 5-shot as messages

В этом формате, иснтрукция находится в system, а каждая пара вопрос-ответ из few-shot в двух отдельных сообщения в контексте.

[
    {
        "role": "system",
        "text": "The following are multiple choice questions (with answers) about abstract algebra"
    },
    {
        "role": "user",
        "text": "Find all c in Z_3 such that Z_3[x]/(x^2 + c) is a field.\\nA. 0\\nB. 1\\nC. 2\\nD. 3\\nAnswer: "
    },
    {
        "role": "assistant",
        "text": "B"
    },
    {
        "role": "user",
        "text": "Statement 1 | If aH is an element of a factor group, then |aH| divides |a|. Statement 2 | If H and K are subgroups of G then HK is a subgroup of G.\\nA. True, True\\nB. False, False\\nC. True, False\\nD. False, True\\nAnswer: "
    },
    {
        "role": "assistant",
        "text": "B"
    },
    {
        "role": "user",
        "text": "Statement 1 | Every element of a group generates a cyclic subgroup of the group. Statement 2 | The symmetric group S_10 has 10 elements.\\nA. True, True\\nB. False, False\\nC. True, False\\nD. False, True\\nAnswer: "
    },
    {
        "role": "assistant",
        "text": "C"
    },
    {
        "role": "user",
        "text": "Statement 1| Every function from a finite set onto itself must be one to one. Statement 2 | Every subgroup of an abelian group is abelian.\\nA. True, True\\nB. False, False\\nC. True, False\\nD. False, True\\nAnswer: "
    },
    {
        "role": "assistant",
        "text": "A"
    },
    {
        "role": "user",
        "text": "Find the characteristic of the ring 2Z.\\nA. 0\\nB. 3\\nC. 12\\nD. 30\\nAnswer: "
    },
    {
        "role": "assistant",
        "text": "A"
    },
    {
        "role": "user",
        "text": "Find the degree for the given field extension Q(sqrt(2), sqrt(3), sqrt(18)) over Q.\\nA. 0\\nB. 4\\nC. 2\\nD. 6\\nAnswer: "
    }
]

Параметры генерации OpenAI — temperature=0, max_tokens=1 .

Параметры генерации в GigaChat — temperature=1e-6, max_tokens=1 .

© Habrahabr.ru