LLM Leaderboard за апрель 2024

Привет, Хабр!

Сегодня мы поговорим о том, какие LLM лучше всего работают на бизнес-задачах. AI-хайп находится на локальном пике, похоже, что весь мир только и делает, что внедряет AI-фичи в свои продукты, собирает миллионы на разработку еще одной оболочки для ChatGPT, заполняет свои ряды AI-тулами и, кажется, предоставляет работу роботам, пока сами попивают кофе в старбаксе. 

Из чего состоит бенчмарк?

  • docs — работа с большими документами и базами знаний

  • crm — для работы с каталогами продуктов и маркетплейсами

  • integrate — интеграция со сторонними апишками, сервисами и плагинами

  • marketing — способность работать как ассистент маркетолога — brainstorming, idea refinement, text generation

  • reason — насколько хорошо с логикой в рамках предоставленного контекста

  • code — работа с кодом

  • final — общий рейтинг модели

Бенчмарк — закрытый, основан на тестах и промптах из рабочих продуктов и сервисов. Язык английский. В бенчмарке представлены не все модели (нет моделей 70B). 

Для локальных моделей стоимость считается исходя из запуска модели на Azure VM/GCloud/AWS под Hugging Face transformers. Если использовать TGI/vLLM, то цена локальных моделей изменится в меньшую сторону.

Автор бенчмарка Rinat Abdullin

Автор бенчмарка Rinat Abdullin

Что нового?  

  1. Начнем с хорошего. Llama 3 — 8B совершила гигантский скачок по сравнению с прошлой версией. Она обогнала Claude 3 Sonnet, Cohere Command R и даже Mistral 8×22B. У меня большие ожидания к тюнам Llama 3 8B Instruct.

  2. Llama 3 70B показала себе не очень хорошо, на уровне старенького cloude 2, проблема скорее всего с конфигом, ждем исправлений.

  3. Mistral AI начали фиксить свою проблему с болтливостью второго поколения своих моделей! Более того, она настолько хорошо стала следовать инструкциям, что побила рекорд ChatGPT-4 Turbo (v2024–04–09) в категории integrate. Стоит при этом раз в 10 меньше, чем Mistral Large.

  4. Новая модель Cohere Command R+ показывает себя очень хорошо, но жаль что они выпустили с лицензией cc-by-nc-4.0(не для коммерческого использования)

  5. Продукт openAI так и никому не удалось перебить, но конкуренты все догоняют. Опенсорсные модели получили скачок в развитие.

Новые бенчмарки оперативнее выходят в телеграмм канале. Если вы не хотите их пропустить, приглашаем вас подписаться на Телеграм-канал автора:  it_garden. Там уже опубликована таблица с 2000 ИИ-инструментами. Полезно для того, чтобы понять, что вообще бывает.

Habrahabr.ru прочитано 6292 раза