Российский чат-бот GigaChat научился распознавать фотографии

GigaChat

Отечественная нейросеть GigaChat Pro научилась работать с изображениями. О нововведении Hi-Tech Mail сообщили в пресс-службе Сбера.

Благодаря новой функциональности пользователи могут отправить фотографию или рисунок чат-боту, а ИИ составит ответ, учитывая содержание иллюстрации. Например, GigaChat расскажет, сколько людей на фото, во что они одеты, и даст советы по стилю одежды.

Как работает распознавание фото в GigaChat

1. Фото с людьми

Редактор Hi-Tech Mail протестировал опцию в Telegram-боте GigaChat. Там уже доступна последняя модель GigaChat Pro. Мы отправили фотографию нейросети и попросили описать снимок. С этой задачей «ГигаЧат» справился хорошо. Правда, чат-бот сказал, что у парня руки в карманах, но это не так. Одна рука придерживает пальто, вторая — опущена вниз. При этом ИИ точно описал одежду и интерьер.

Как работает распознавание фото в GigaChat
Источник: Hi-Tech Mail
Как работает распознавание фото в GigaChat
Источник: Hi-Tech Mail

Затем мы дали GigaChat задачу — озвучить ошибки в составлении образа и рассказать, что лучше сочетать с клетчатым пальто. К удивлению, чат-бот ответил по делу. Нейросеть посоветовала не сочетать с одеждой в стиле кэжуал спортивную обувь и яркие цвета в аксессуарах. ИИ порекомендовала носить с таким пальто кожаные ботинки, чиносы, шарф/платок, перчатки и нейтрального цвета свитер.

2. Изображения с математическими задачами

В Сбере сообщили, что GigaChat Pro также научилась распознавать печатный и рукописный текст, формулы, графики, таблицы и анализировать данные, которые в них содержатся. Например, студенты могут сфотографировать часть учебного материала или конспекта, загрузить изображение и получить короткое содержание текста, его ключевую тему и сформировать план дальнейшей работы с ним.

Проверяем. Мы загрузили фотографию с легким уравнением из программы 9-го класса и попросили нейросеть решить ее. Чат-бот справился — он перечислил все этапы и озвучил правильный ответ. После этого «ГигаЧат» предлагает продолжить диалог на тему, например, можно задать вопрос «Как упростить решение уравнения?»

Как работает распознавание фото в GigaChat
Источник: Hi-Tech Mail

В Hi-Tech Mail узнали, что функция пока нормально работает только в веб-версии GigaChat. В Telegram-версии чат-бота нейросеть выдает кривые символы и неправильные ответы.

Доступность

Разработчики уточнили, что все новые функции доступны и бизнес-клиентам через API. Компании могут использовать ИИ для модерации отзывов или автоматизации линии поддержки (когда клиент прикладывает к обращению скрин или фото). Ретейлеры могут загружать изображение товара и просить сервис придумать к нему продающее описание.

Помимо этого, версии GigaChat Pro и GigaChat Lite теперь работают с запросами большего объема — размер контекста был увеличен в 4 раза с с 8000 до 32 000 символов. Если раньше в один запрос можно было загрузить объем текста, сопоставимый с 15 страницами A4 (шрифт 14 pt), то теперь максимальный объем запроса вырос до 60 страниц.

Модель GigaChat Pro доступна всем пользователям через веб-версию,  Telegram и ВКонтакте бесплатно — достаточно просто начать диалог. Разработчикам и бизнесу модели доступны через GigaChat API.

©  HI-TECH@Mail.Ru