Hidden Gem — LLava 1.5

интернет начиная с августа месяца

интернет начиная с августа месяца

Ладно, на самом деле картинка не верна, если нормально померить — gpt4v будет обгонять любой опенсурс на любом бенче, но api нет, папиры нет, а значит я могу клипать смешнявки на потеху публике.

4e4cf1174bbe4a4501b9f749ada481a8.png

Архитектура простая простейшая — давайте возьмем LM пожирнее (Vicuna 13b — удачный тюн llama), а дальше начинаются фокусы:

Обучение идет в два этапа

  1. Треним на LAION-CC-SBU — кусок LAION размеченный BLIP, причем учим ТОЛЬКО тонкую матрицу projection поверх вектора из CLIP, за счет чего экономиться куча ресурсов — у нас все остальное заморожено! А сама проекция идет в IMAGE_TOKEN — выделенный токен под картинку, в него мы пихаем всю информацию. Короче Prefix tuning чистой воды.

  2. Учим уже и Projection матрицу и LM на сете диалогово инстуктивного формата.

    1. Собирался он так: брали COCO17(это кэпшены) и просили GPT4 написать диалог на их основе! Easy peasy

      так выгляят возможные варианты разметки для 1 изображения, используются все 3

      так выгляят возможные варианты разметки для 1 изображения, используются все 3

Красивые картинки из статьи:

Видали как может? а пару лет назад для этого было нужно пятом моделей разной степени тяжести!

Видали как может?, а пару лет назад для этого было нужно пятом моделей разной степени тяжести!

Бенчмарки

630a4c0e47fd362923a59208d698dc72.png

Фактически это лучшая opensource модель для текстовых операций с изображениями + она есть в 7b и 13b размере — те запустить можно на любом тостере с 3090 на LORA finetune.

1c5f758e25149c03a55f9e73befffabf.png

А еще ее можно использовать в связке с GPT4, в формате когда LLAVA только описывает изображение, а gpt4 нормализует и улучшает текст.

Реально полезные ссылки

Shameless self Promo

А если очень хочется читать больше такого — подписаться на мой канал в tg

© Habrahabr.ru