Веса Vicuna опубликованы. Теперь можно поиграться с самой продвинутой ChatGPT-like моделью на домашнем компьютере

eb196376d60f6f8648001159fcbb3323

Друзья, это наконец случилось. В предыдущей новости были ссылочки на демо Викуньки, но вчера ночью опубликовали саму модель. Сегодня её уже квантировали до 4 бит и сконвертировали в формат ggml (Georgi Gerganov Machine Learning, полагаю), а значит нам ничего не стоит её скачать и прикрутить к llama.cpp и насладиться самой продвинутой языковой моделью на своём домашнем компьютере. Без смс и регистраций.

Чем Викунья лучше, чем всё остальное, что выходило раньше? Размером контекста, 2048 токенов против 512, и датасетом. Если все предыдущие модели (Alpaca, gpt4all, Dolly) брали некоторый синтетический датасет, который им нагенерировала ChatGPT, то в случае с Викуньей, исследователи откапали на просторах интернета ShareGPT — сайт, на котором случайные люди делились лучшими диалогами с ChatGPT. Эдакий краудсорс. Там и выборка разнообразнее, и диалоги длинее и ненароком получился reinforcement learning from human feedback.

Успей скачать и поиграться, пока корпорации не прикрыли доступ свободным исследователям :) Ибо вопросы лицензии стоят очень остро и всё это дело могут прихлопнуть.

Запуск всего этого дела простой:
1) git clone https://github.com/ggerganov/llama.cpp.git
2) качаем модель и кладём туда же
3) make
4) ./main -i --interactive-first -r »### Human:» --temp 0 -c 2048 -n -1 --ignore-eos --repeat_penalty 1.2 --instruct -m ggml-vicuna-13b-4bit.bin

Если у вас CPU с большим количеством тредов, можно поиграться с параметром -t X, по умолчанию X = 4

На моём стареньком AMD 3400g с 16 Гб памяти без дискретной видеокарты пыхтит, но работает. Но в случае с llama.cpp дискретная видеокарта и не поможет, проект крутит модели чисто на CPU.

© Habrahabr.ru