Первая языковая модель, которую наконец можно использовать в коммерческих целях — Dolly 2.0
Если помните недавнюю серию новостей, череда альпакоподобных моделей (Alpaca, gpt4all, Vicuna) страдала двумя основными недостатками:
все они были основаны на несвободной LLaMa
файнтюнинг, для понимания моделью промптов в стиле instruction following, проводили на не самых свободных данных, полученных на моделях OpenAI
Среди этого карнавала было одно* приятное исключение — Dolly, которая была лишена первого недостатка, но всё еще были вопросы по датасету. Вчера эту ситуацию исправили. За последние пару недель Databricks закраудсорсили силами своих собственных 5 000 сотрудников чистый датасет. Плюс в качестве базовой модели перешли с gpt-j-6B на Pythia 12b от всё той же Eleuther.ai
Модель доступна на hugging face. Тут есть достаточно простые инструкции как её можно закрутить в Paperspace, но производительность пока не очень. В самое ближайшее время ожидаем её квантирование и, возможно, оптимизацию для запуска в средах типа llama.cpp для машин без GPU. Плюс есть пара hugging face spaces, где эта модель уже крутится и с ней можно пообщаться — тыц, тыц и тыц (могут быть недоступны на момент чтения)
Источник: https://www.databricks.com/blog/2023/04/12/dolly-first-open-commercially-viable-instruction-tuned-llm
* Да, я знаю, что еще готовится еще одно, силами комьюнити open-assistant.io и материнской компанией проекта — LAION. Но пока единственное демо, которое нам представили, основано на всё той же несвободной лламе.