Microsoft представила мультимодальную нейросеть, которая может решать головоломки и распознавать текст03.03.2023 11:31

Исследователи из Microsoft представили мультимодальную модель Kosmos-1, которая способна анализировать изображения, решать визуальные головоломки, распознавать текст, проходить визуальные тесты IQ и понимать инструкции на естественном языке.

arxiv.org

Исследователи считают, что мультимодальный ИИ, который объединяет различные режимы ввода, такие как текст, аудио, изображения и видео, станет ключевым шагом к созданию универсального искусственного интеллекта.

В Microsoft продемонстрировали, как модель анализирует изображения и отвечает на вопросы о них, читает текст с изображения, пишет подписи к изображениям и проходит визуальный тест IQ с точностью 22–26%.

1-2 - визуальное объяснение, 3-4 - ответ на вопрос, 5 - ответ на вопрос веб-страницы, 6 - простое математическое уравнение, 7-8 - распознавание цифр 1–2 — визуальное объяснение, 3–4 - ответ на вопрос, 5 — ответ на вопрос веб-страницы, 6 — простое математическое уравнение, 7–8 — распознавание цифр

Исследователи назвали систему «мультимодальной моделью большого языка» (MLLM). Kosmos-1 принимает входную информацию в виде серии токенов. Специальные маркеры и указывают на начало и конец встраивания закодированного изображения. Например, «document » — это текстовый ввод, а » ~~paragraph Image Embedded paragraph~~ » — это чередующийся ввод изображения и текста.

1-2 - подписи к изображениям, 3-6 - ответы на визуальные запросы, 7-8 - распознавание текста на картинке, 9-11 - поддержание диалога. 1–2 — подписи к изображениям, 3–6 — ответы на визуальные запросы, 7–8 — распознавание текста на картинке, 9–11 — поддержание диалога.

Модуль внедрения применяется для кодирования текстовых токенов и других модальностей ввода в векторы. Затем вложения подаются в декодер. Для входных токенов используется таблица поиска, чтобы сопоставить их с вложениями.

Microsoft обучила Kosmos-1, используя данные из интернета, в том числе выдержки из The Pile (текстовый ресурс на английском языке объемом 800 ГБ) и веб-архива Common Crawl.

После обучения исследователи оценили способности Kosmos-1 понимать язык, генерировать текст, классифицировать его без оптического распознавания символов, генерировать подписи к изображениям, визуальные ответы на вопросы, ответы на вопросы веб-страниц и классифицировать изображения.

По данным Microsoft, во многих из этих тестов модель превзошла современные аналоги.

Kosmos-1 смогла правильно ответить на вопрос теста Raven только в 22% случаев (в 26% в случае с тонкой настройкой). Однако это больше процента случайных правильных ответов (17%).

Исследователи говорят, что они планируют увеличить размер модели, а также интегрировать голосовые возможности.

Microsoft обещает, что откроет Kosmos-1 для разработчиков.

Ранее компания совместно с OpenAI объявили, что их конечная цель — создать систему ИИ общего назначения. В январе Microsoft выделила на развитие разработок OpenAI в области искусственного интеллекта около $10 млрд.

Однако Kosmos-1 выглядит как проект Microsoft, разрабатываемый без участия OpenAI.