GPT-4V, который видит — что он умеет

Случилось вот что: вышел большой отчёт про возможности GPT-4V. Внезапно оказалось, что LLM могут обращаться с картинками так же, как с текстовыми промптами, и никакой особой разницы нет. Что та фигня, что эта фигня, главное — научиться распознавать, дальше те же логические связки. Это давно ожидалось, потому что люди в основном смотрят, и большая часть информации приходит через глаза. Но мало кто ждал, что это так круто получится вот уже сейчас и с LLM.

Отчёт вот. Теперь давайте смотреть, а не читать.

nb7dygo7diqtuvu4luflgfb70vy.png
Хорошие мультимодальные способности, чётко считывает указатели, хорошее общее понимание ситуации

Если вы пьяны, он пересчитает пиво и сверит с чеком:

4x2dxqkfbbqrbnrc5ady7lvhmzc.png

Собственно, важное:

  • Хорошо понимает что за сцена изображена и какие взаимосвязи между объектами на ней.
  • Читает текст, ориентируется на местности, опознаёт конкретных людей
  • Умеет в абстракции и обратно
  • Отлично ищет то, чего не должно быть (отклонения от базовой идеи) — дефекты на деталях, дефекты в людях (в особенности на рентгене) и так далее.
  • Плохо считает.


Давайте к деталям.

Можно парсить текст с фото:

k9mnwnsb7t4etpyijxdex_sqx8i.png

Это традиционный навык, но здесь он очень впечатляет. Капче, кажется, хана:

pxtdkyxctxsyzkx6xklpqdmz6ho.png

Правда, не всё потеряно для капчи, с математикой, как обычно, не очень:

eapgsbpgqqha4sikz6cocfmnq98.png

Таблицы:

_72qfkizh3kn0z9lim_uuw7vsws.png

Перевод и общее понимание:

va6ghgt1bu6jjk1zoipmw_zz8ya.png

Очень, очень хорошая работа с указателями. Можно обводить, показывать корявыми стрелочками, делать системные рамочки, всё очень хорошо фокусирует внимание. Можно хоть делить счёт по фотографии стола:

463wpwpzhqilg2mgw64qyzecura.png

Хорошо строит взаимосвязи по кадрам, мини-обучение внутри промпта отлично работает (как и на текстовой версии). Здесь пока много ошибок по отчёту, но это одна из самых многообещающих способностей:

tkqbifguwf2csgjg7ezgtvmixu4.png

Распознаёт людей:

9baucxilncsum3ncb86wbrevkha.png

И даже абстракции:

tut1dml3wflmqenpegda5jpmemc.png

Точно так же он отлично определяет достопримечательности по фото и еду:

nafukzbbwabyohwyzshpbwodtzi.png

Уверенно читает КТ:

h6mqpgkfvrfteerdsc8ptnexc8q.png

n2nibyetqdv1svv2nsuhnulqxyg.png

Но жертвы будут:

mc5wpxwsjygek4yby_agap8ucam.png

С лёгкими, кстати, традиционно справляется хорошо.

Показывает общее понимание ситуации. Это, пожалуй, одна из самых удивительных вещей, потому что на этом свойстве строится много других сложных навыков. Слишком рано, слишком рано это появилось в нашем мире!

2g7fqzjqulgci1-gkwxa0839ssy.png

Вот комплексная задача: пересчитать людей и подписать каждого:

lgcomo6cwg3osbkofritqmg8kss.png

Хорошее мультимодальное понимание ситуации:

rkfp-16die1em0q6iu1agjsmtnu.png

Но тут надо сказать, что вполне возможно, что по известной картинке он просто знает текстовое описание мема и толкует его.

Аналогичная ситуация, где можно решить и без картинки:

dil2rg7gt4edmtmw8isoxyvmswq.png

А вот это уже куда интереснее. Здесь нужно просто сделать выводы о том, что в сцене. Похоже, сначала ввод преобразуется в векторную модель (подробное описание в виде вектора, аналог огромного текстового описания от судмедэксперта), а потом по вектору уже применяются логические операции:

ehiptuvpyvbqq7_63q4qpp-q7u8.png

И вот:

lgc0581rjlx7trann6vbwmhtaiq.png

Прогноз действий в видео (!):

jkqag8jhb5kks5q7eymcxdignwc.png

Если вы думаете, что это всё, то нет. Смотрите:

ijxawwhi6qcerh45uwtj9ya3o4o.png

Сочетание с указателями:

qfelqq9ilry8u30zr8mm0rhewmc.png

Пересказать видео? Не вопрос:

qfvcfcsowg0xd8ptoj8eeyqot3i.png

Этой фигнёй вы его не обманите:

61fbdu3pi2rb_s1tdqzwvx9tfqm.png

Да и вообще не обманите, как он научится воспринимать видео в контексте допроса:

vdo7fxeidag2x_4mtsb7jywcdpm.png

Манипулировать тоже уже умеет:

gu7ss3uh4ot5msak899bkaxdlsk.png

Если что, это одно из самых разрушительных в LLM — они умеют убеждать. Это значит, что можно показывать определённую информацию определённым людям и предсказуемо менять их установки. Давно работает. Жаль, мы не впереди планеты всей в этом.

Невинная игра «найди 5 различий» превращается в поиск дефектов между идеальной векторной моделью объекта и образцом:

lfympewbl3xb_0qbv24k46krf48.png

Но жертвы будут:

k7zxibe-rcblxsace190mbdsvry.png

Определение корзины пока страдает без узкой базы того, что есть в магазине (рядом есть примеры с сужением базы, они точнее):

j-ypn9rcfr3hhojkmlwvwhw0_fk.png

А вот это уже интересно:

qwiflou6vteuizwc93jgsguf6wa.png

Организационный порядок:

qi_vhaa_4ychv-_0j_hkzohnui0.png

И попугай за рулём:

ssxearovsci5ketft1h0tvq2d28.png

Фильтры, то есть смешение образца с идеей:

9knb8wzfuy9yrpsdlby4ax6lrsa.png

Очень, очень хорошие возможности для различной роботизации.

Вот для RPA:

4p1iefglywgonqomt2zq_-eadvq.png

can2z_fuzfft1eqt7sf-zqcgzn4.png

А вот, например, гипотезы поиска холодильника:

ebxduh-k_6hugkii2fd1iqemrrs.png

ozyx-uawwcgzjju9fqapft0ivs4.png

Он и вас найдёт, дайте только ему одежду и мотоцикл.

Ещё раз, отчёт вот. Уже видно, кого и сколько можно будет уволить из-за 4V. Это вам не ChatGPT, для работы с которым нужно сильно много думать и формулировать задачу. Этому можно просто показать, и он разберётся.

Ещё раз главное:

  • Можно дать на вход текст и картинку (или несколько картинок), это очень гибкое сочетание.
  • На выходе тоже можно получить текст и картинку (но генерация пока хуже распознавания).
  • Он преобразовывает ввод всё в то же векторное поле, которым пользуется в LLM, то есть, по большому счёту, наследует все способности GPT4, но очень расширяет возможности ввода.
  • Хорошо учится по образцам прямо внутри промпта.
  • Хорошо распознаёт объекты и их взаимосвязи, предсказывает следующее событие в сцене.
  • Уверенно распознаёт медицинские ситуации по изображениям.
  • Хороший поиск дефектов.
  • Умеет считать объекты, но не хочет. В медленном режиме пошагового счёта считает лучше.
  • Умеет ободить объекты и давать их координаты.
  • Подписывает части изображения.
  • Хорошо объясняет по картинкам, инструкции очень крутые.
  • Отлично анализирует сцену в реверсе («представь, что ты детектив, что можешь сказать?»)
  • Распознаёт текст и формулы, таблицы, переводит (20 языков), понимает структуру документов.
  • Отлично понимает указатели и всё, на что вы тыкаете тем или иным образом.
  • Понимает последовательности событий, разбирает видео, умеет строить временные связи между картинками и прогнозы.
  • Собирает всякие головоломки типа танграмов и решает задачи на последовательности фигур.
  • Определяет эмоции (что пугает в сочетании с анализом видео).
  • Предсказывает, как картинка повлияет на аудиторию (самая объективно опасная способность).
  • Находит различия, дефекты, оценивает повреждения
  • Умеет делать разные задачи в реальной среде: догадываться, что за кнопки и для чего на разных машинах дома, сопоставлять инструкции из базы и станки, ориентироваться без полных данных.
  • Хорошо браузит по неполным данным, может купить вам клавиатуру или заказать еду по запросу, причём сам разберётся, где и как это сделать.


Про математику надо пояснить отдельно. Кажется, это общий недостаток всех LLM, потому что они учатся по примерам с решениями и пытаются уловить какие-то ускользающие от нас закономерности, но не сами принципы арифметических операций. И даже если учить модели на детализированных сетах с арифметикой и пошаговым разбором примеров, получится не очень. Вот тут у нас чуть больше деталей про этот китайский опыт. Если что, мы с Milfgard собираем в том числе новости про LLM в этом канале. Называется «Ряды Фурье». Всегда хотел это сказать, вступайте в ряды Фурье!

А что касается тендеций LLM, кажется, нам всем хана.

© Habrahabr.ru