Microsoft представила мультимодальную нейросеть, которая может решать головоломки и распознавать текст
Исследователи из Microsoft представили мультимодальную модель Kosmos-1, которая способна анализировать изображения, решать визуальные головоломки, распознавать текст, проходить визуальные тесты IQ и понимать инструкции на естественном языке.
arxiv.org
Исследователи считают, что мультимодальный ИИ, который объединяет различные режимы ввода, такие как текст, аудио, изображения и видео, станет ключевым шагом к созданию универсального искусственного интеллекта.
В Microsoft продемонстрировали, как модель анализирует изображения и отвечает на вопросы о них, читает текст с изображения, пишет подписи к изображениям и проходит визуальный тест IQ с точностью 22–26%.
1–2 — визуальное объяснение, 3–4 - ответ на вопрос, 5 — ответ на вопрос веб-страницы, 6 — простое математическое уравнение, 7–8 — распознавание цифр
Исследователи назвали систему «мультимодальной моделью большого языка» (MLLM). Kosmos-1 принимает входную информацию в виде серии токенов. Специальные маркеры и указывают на начало и конец встраивания закодированного изображения. Например, «document » — это текстовый ввод, а » paragraph » — это чередующийся ввод изображения и текста.
1–2 — подписи к изображениям, 3–6 — ответы на визуальные запросы, 7–8 — распознавание текста на картинке, 9–11 — поддержание диалога.
Модуль внедрения применяется для кодирования текстовых токенов и других модальностей ввода в векторы. Затем вложения подаются в декодер. Для входных токенов используется таблица поиска, чтобы сопоставить их с вложениями.
Microsoft обучила Kosmos-1, используя данные из интернета, в том числе выдержки из The Pile (текстовый ресурс на английском языке объемом 800 ГБ) и веб-архива Common Crawl.
После обучения исследователи оценили способности Kosmos-1 понимать язык, генерировать текст, классифицировать его без оптического распознавания символов, генерировать подписи к изображениям, визуальные ответы на вопросы, ответы на вопросы веб-страниц и классифицировать изображения.
По данным Microsoft, во многих из этих тестов модель превзошла современные аналоги.
Kosmos-1 смогла правильно ответить на вопрос теста Raven только в 22% случаев (в 26% в случае с тонкой настройкой). Однако это больше процента случайных правильных ответов (17%).
Исследователи говорят, что они планируют увеличить размер модели, а также интегрировать голосовые возможности.
Microsoft обещает, что откроет Kosmos-1 для разработчиков.
Ранее компания совместно с OpenAI объявили, что их конечная цель — создать систему ИИ общего назначения. В январе Microsoft выделила на развитие разработок OpenAI в области искусственного интеллекта около $10 млрд.
Однако Kosmos-1 выглядит как проект Microsoft, разрабатываемый без участия OpenAI.