«ИИ-комбайн»: куда развиваются мультимодальные модели генеративного искусственного интеллекта

02 Июля 2024 14:4302 Июл 2024 14:43 |
Поделиться

Елена Мимоглядова, эксперт по ИИ компании Axenix

Мультимодальные модели генеративного искусственного интеллекта — новый виток развития технологии. В чем их преимущества, что у них «под капотом» и куда технологический прорыв приведет ИИ на этот раз?

Чем мультимодальные модели отличаются от традиционных

В отличие от традиционных ИИ-моделей, которые ограничены поддержкой одного типа данных (одной модальностью), мультимодальные нацелены на обработку и синтезирование информации разных форматов: текст, звук, изображение.

Развитие мультимодальных ИИ-моделей стимулируется технологическими гигантами. В авангарде процесса снова выступила компания OpenAI с недавним релизом ChatGPTo, где «o» обозначает «omni», т.е. поддержку мультимодальности.

В каком-то смысле GPTo представляет собой закономерный итог или даже венец эволюции ИИ на данном историческом отрезке.

Принципиальное преимущество мультимодальных моделей — способность более полно понимать контекст и нюансы задач. Например, такая модель может не только распознать объект на изображении, но и описать его текстом, перевести текст в звуковой файл с синтезированной озвучкой или создать видео по текстовому запросу.

Кроме того, «всеядность» модели умножается на опыт эффективного практического применения ИИ, полученный на мономодальных моделях. Именно комбинация этих факторов позволяет сделать серьезный шаг в достижении человекоподобного взаимодействия с ИИ в том, что касается универсализма применения через считывание контекста.

То есть мультимодальные решения приближают нас к созданию нового формата интеллектуальных и адаптивных систем, способных решать комплексные задачи в различных сферах жизни. Самые очевидные направления применения: контент, продажи, маркетинг, улучшение клиентского опыта, написание программного кода, исследования и разработки (R&D), производство, финансы, управление персоналом, юридические услуги.

В тех сферах, где требуется преимущественно аналитика имеющихся данных, традиционные ИИ продолжат играть важную роль. Но когда речь идет о создании чего-то нового, о синтезе больших объемов данных различного формата — мультимодальные модели становятся незаменимыми.

Как расширяются горизонты

Особенно ярко новые модели смогут проявить себя для решения внутренних корпоративных задач в больших компаниях.

Принятие решений топ-менеджмента там часто совершается на стыке множества различных областей. Например, руководителю перед тем, как сделать важный выбор, необходимо изучить сводки о работе логистики, прогнозы спроса, отчеты от финансового отдела, вникнуть в детали маркетинговых кампаний.

Запрос к мультимодальному ИИ с загрузкой текстовых, графических и видеоданных позволит максимально быстро получить точную сводку — «выжимку» из нужных для принятия решения данных, хранящихся в различных участках ИТ-ландшафта.

Модель может быть встроена в привычные BI-решения, обеспечивая оперативный доступ к актуальной информации в режиме реального времени. Хотя интеграция потребует дообучения модели и перенастройки ИТ-систем компании, это полностью решаемая задача.

В области управления персоналом (HR) такие модели могут проводить быстрый анализ анкет и портфолио кандидатов, анализировать их выступления на видео, помогать в обучении сотрудников, разрабатывая персонализированные программы и планы.

Они могут подбирать и создавать необходимые обучающие материалы, анализировать компетенции кандидатов и сотрудников, прогнозировать карьерное развитие на основе предыдущего опыта специалистов.

Чем больше компания, тем логичнее использовать мультимодальные модели для внутренней ИТ-поддержки. Например, можно отправить скриншот в чат-бот на основе мультимодели и получить мгновенный ответ. А не ожидать, пока ИТ-специалисты обработают заявку.

Вызовы и возможности

Компании, уже знакомые с генеративными ИИ, смогут проще адаптироваться к GPTo-моделям, особенно если у них высокий уровень цифровой зрелости и поддержка со стороны топ-менеджмента.

Для остальных open source-модели ИИ могут стать отличным вариантом с учетом необходимости поиска путей удешевления и упрощения входа в сегмент новых технологий.

Требования к компетенциям тренеров ИИ останутся прежними, но их усилия потребуют большей скоординированности в рамках адаптации и развития единого мультимодального инструмента. Плотное сотрудничество с партнерами и работа в кросс-функциональных командах становятся ключевыми элементами успешного внедрения.

Промт-инжиниринг также будет подстраиваться под мультимодальность с точки зрения навыков работы с различными видами данных.

Если сравнивать старые и новые модели, то можно привести аналогию с процессорами разных поколений. Мультимодальный ИИ может выполнять больше задач, а также делать это быстрее и точнее.

В условиях современной конкурентной среды использование мультимодальных моделей становится не просто преимуществом, а необходимостью для достижения успеха.

Из футуризма в реальность

Искусственный интеллект работает по принципу «что в него заложишь, то и получишь», поэтому важно уделять внимание регулированию и установлению границ. Такие меры активно обсуждаются в разных странах.

Например, в Европейском Союзе недавно были приняты акты, разделяющие ИИ по категориям рисков и определяющие, где и как его можно использовать, минимизируя риски.

Меры по созданию благоприятной регуляторной среды, обеспечивающей развитие технологий и безопасность использования ИИ, предпринимаются в США, Китае и других странах, включая Россию…

Мультимодальный ИИ обещает стать еще более умным помощником человеку по сравнению с уже достигнутым уровнем. Но произойдет это при условии, что люди всегда будут помнить об ограничениях и потенциальных рисках, которые могут возникнуть при взаимодействии с продвинутыми интеллектуальными системами.

erid: LjN8KK6EUРекламодатель: ООО «Акстим»ИНН/ОГРН: 7705476338/1027705028405Сайт: https://axenix.pro/

Полный текст статьи читайте на CNews