Чем новый ChatGPT-4o отличается от GPT-4, что умеет и почему это супер-важно23.05.2024 09:15

Это самое крупное обновление ChatGPT

В середине мая компания OpenAI представила новую версию самой популярной и хайповой нейросети в мире. Продукт получил название ChatGPT-4o, сохранив порядковый номер своего предшественника. Несмотря на это, чат-бот не только стал быстрее обрабатывать информацию, но и получил поддержку мультимодальности, и это буквально все изменило.

Буква «o» в названии ChatGPT-4o расшифровывается как «omni» и указывает на универсальность нейросети. Теперь чат-бот способен воспринимать информацию различных типов одновременно и отвечать пользователю, генерируя текст, озвучивая его, создавая изображения и т.д.

Благодаря поддержке мультимодальности нейросеть ChatGPT-4o получила целый ряд новых интересных функций.

Работа с изображениями

Распознавание и детальное описание содержимого изображений
Перевод текста, присутствующего на изображениях
Ответы на вопросы, связанные с визуальным контентом
Генерация изображений по текстовому описанию

Работа с видео

Понимание происходящего на видео без звука по визуальному ряду
Распознавание отдельных предметов на видео
Умение генерировать видео, включая трехмерные, по текстовому описанию
Способность комментировать то, что снимает камера, в реальном времени (актуально для незрячих)
Сжимание видео и пересказ

Работа с аудио

Распознавание и транскрибирование речи в реальном времени (задержка около 0,3 сек)
Генерация речи с разными эмоциональными оттенками и интонациями
Определение эмоций по голосу человека

Совмещение модальностей

Одновременная работа с текстом, изображением, аудио в рамках одного запроса
Например, можно задать вопрос по картинке, а ответ получить в виде аудиосообщения

Контекстное понимание

Модель учитывает предыдущий контекст беседы при обработке новых данных
Способна вести последовательный диалог на протяжении нескольких минут

Продвинутая работа с языками

GPT-4o может помочь вам в изучении более 50 иностранных языков
Может работать в качестве синхронного переводчика в диалоге
Понимает шутки на разных языках и определяет контекст беседы по интонации, например, иронию или сарказм

Распознавание текста на картинках в ChatGPT-4o

Мне стало интересно, насколько хорошо нейросеть умеет в распознавание. Поэтому на первом этапе я решил не жестить и попросил нейросеть перевести меню ресторана, данное на иврите, на русский язык. Я обращался к ней с компьютера, который вы всегда можете купить в магазине XCOM-SHOP.RU.

Разобраться в меню без переводчика будет проблематично

Результат не заставил себя ждать. Спустя всего несколько секунд я получил полный перечень блюд с разбивкой по разделам:

Все меню не уместилось в один экран

Затем я попросил нейросеть посоветовать мне что-то из блюд, указав, что я очень голоден, и получил вот такой ответ:

Хороший совет, принимается

Достойно, но и задача, прямо скажем, была не очень сложной. Мне захотелось проверить, сможет ли ChatGPT-4o распознать врачебный почерк.

В целом, даже без нейросети понять врачебный почерк можно без особого труда: тут он довольно разборчив

Поэтому я взял первую попавшуюся справку из интернета и предложил расшифровать ее двум конкурирующим нейросетям — ChatGPT-4o и Claude3.

Вот что из этого получилось:

Результат расшифровки мог быть и получше

К сожалению, обе нейросети практически не справились, или справились, но плохо. ChatGPT-4o правильно определил ФИО и возраст пациента, понял, что он здоров, и на этом все. Номер справки, дату выписки, специализацию врача, проводившего осмотр, и т.д., и т.п. он либо не определил, либо определил неверно.

Расшифровщик из Claude3 так себе

Claude3, который так все хвалят, впрочем, справился еще хуже. Он почему-то решил предложить расшифровку в описательном виде, но оставим это на его усмотрение. Куда важнее, что он не смог определить верно ни одного факта, описанного в справке, кроме ФИО пациента. Мало того, что в ряде случаев он неверно распознал информацию, так часть еще и просто додумал самостоятельно.

Я хотел, чтобы получилось примерно вот так

В пресс-релизе OpenAI уделяет большое значение способности ChatGPT-4o совмещать изображения с текстом. Якобы поэтому теперь текстовое содержимое на генерируемых нейросетью картинках выглядит полноценно как с точки зрения грамотности, так и начертания. Например, теперь вы можете попросить ее нарисовать рисунок и разместить внутри конкретный текст.

Я попросил ChatGPT-4o нарисовать робота, который пишет этот самый текст. Вот что у меня получилось в итоге:

Так себе рисунок, будем честны, но и промпт, который я использовал, очень ограничен

Справедливости ради, я составлял запросы по-разному, переходя с русского на английский и наоборот, но ничего не получилось. Из-за этого может сложиться впечатление, что обновление не является таким уж масштабным. Но на самом деле все эти проверки — полная глупость, потому что произошедшие изменения куда более глобальны и не сводятся только к распознаванию врачебного почерка.

Скорость генерации контента в ChatGPT-4o

Бенчмарки не всегда бесполезны

Несмотря на вялое начало знакомства с ChatGPT-4o, могу подтвердить, что скорость ответов нейросети возросла очень и очень заметно. Она будет отвечать вам примерно так же быстро, как отвечал бы живой человек, если бы вы строили диалог с ним. Причем очевиднее всего это становится при вербальном общении, то есть голосом.

По заявлениям OpenAI, средняя задержка при распознавании ChatGPT-4o голосовых запросов составляет всего 0,3 секунды. Ускорение произошло за счет унификации методики распознавания. Сильнее всего это заметно на примере взаимодействия голосом. Правда, проверить это можно исключительно в приложении на смартфонах, которые вы можете купить в XCOM-SHOP.RU.

Две предыдущие итерации ChatGPT использовали последовательность из трех отдельных моделей для преобразования речи в текст, обработки текста и обратного преобразования в речь. В отличие от них, GPT-4o представляет собой единую модель, обученную на тексте, изображениях и аудио одновременно.

Такой подход позволяет ChatGPT не терять значительные объемы информации на этапе обработки, как это происходило с GPT-3.5 и GPT-4, которые не могли напрямую учитывать интонации, фоновые шумы, а также генерировать смех, пение или эмоциональную речь. GPT-4o решает эту проблему благодаря единой архитектуре в рамках целостной нейронной сети.

Повышение скорости обработки данных произошло на всех уровнях и привело к тому, что ChatGPT-4o стал расходовать меньше токенов — базовой единицы, на которую разбиваются текстовые запросы для обработки нейросетью. Например, русский язык теперь тратит примерно вдвое меньше токенов, а хинди — втрое.

При этом сохраняется возможность работы с большими объемами данных. На практике это выливается в способность нейросети поддерживать голосовой диалог в течение 7 минут, оставаясь в контексте. Обычные голосовые ассистенты, с которыми мы знакомы, обычно теряют нить разговора уже после 3–4 вопросов и замолкают.

ChatGPT-4o как замена Siri, Google Assistant и Алисы

Выберите голос и тембр, которые вам по вкусу

Фактически OpenAI уже сделала первый шаг в сторону превращения чат-бота в полноценного ассистента вроде Siri или Google Assistant, только более высокого уровня. Уже на этом этапе уровень распознавания речи и генерация голосовых ответов в реальном времени делает из GPT-4o невероятно полезного помощника.

Во-первых, мне очень понравилась возможность выбрать голос, которым нейросеть будет со мной разговаривать.
Во-вторых, сама методика генерации речи сильно напоминает то, как говорит человек. Если Алиса от Яндекса — при всех ее плюсах — говорит где-то даже слишком академично, ChatGPT-4o нарочито растягивает слова, из-за чего создается полное впечатление, что говоришь с реальным человеком.
В-третьих, ChatGPT-4o почти не задумывается над ответами. Мне кажется, это как раз та длительность пауз, которая оптимальна для имитации человеческой речи. Они не слишком длинные, но и не слишком короткие. Чат-бот не перебивает вас.

Я разговаривал с ChatGPT-4o на разные темы, просил посоветовать мне машину, спрашивал, что приготовить на ужин, как помочь ребенку с уроками, и ни одна из тем не вызвала у него затруднений. Я как будто реально общался с живым человеком, который не только рад со мной поболтать, но еще и отлично разбирается в предмете.

Но он может не только вести диалог, улавливая контекст, но и самым непосредственным образом способствовать решению многих задач.

Тот самый черный кружок в окне - это и есть ChatGPT-4o. В таком режиме он сможет видеть все, что происходит на экране

Тот самый черный кружок в окне — это и есть ChatGPT-4o. В таком режиме он сможет видеть все, что происходит на экране

В этом смысле наиболее широкие возможности для взаимодействия предлагает приложение. Оно есть как для мобильных платформ, так и для для macOS. Помимо интуитивного и удобного интерфейса для взаимодействия с чат-ботом, программа предлагает ряд дополнительных возможностей, которых нет в веб-версии:

Возможность поделиться экраном и обрабатывать визуальную информацию, которая на нем отображается.
Синхронизация истории диалогов между устройствами, так что можно продолжить общение с ChatGPT с того места, где остановились на другом девайсе.
Быстрое и своевременное распространение обновлений с новыми моделями и возможностями ChatGPT.
Распознавание голосовых команд и ведение вербальных диалогов.
Возможность загружать различные файлы, документы, таблицы, куски программного кода и т.д.

Причем зачастую вы можете даже не загружать данные в GPT. Возможность видеть содержимое экрана является главной фишкой приложения независимо от платформы. Просто у десктопной версии есть ориентация на работу с видимой частью рабочего стола, и это очень облегчает многие задачи. На презентации нам даже показали, как ChatGPT-4o анализирует некий проект и помогает разработчику. Нейросеть ищет ошибки, закрывает скобки и делает всю ту грязную работу, пренебрегать которой нельзя и от которой зависит успех конечного продукта.

ChatGPT-4o в iOS 18

Доступ к приложениям позволяет подключать нейросеть к совместной работе над документами, презентациями и другим мультимедийным контентом. Именно этими навыками чат-бота, по слухам, и хочет воспользоваться Apple, которая якобы уже заключила договор с OpenAI об использовании ChatGPT в iOS 18. Это должно сделать общение с Siri более естественным и человекоподобным. Ассистент Apple сможет лучше понимать контекст вопросов, давать более осмысленные и развернутые ответы.

Кроме Siri, возможности GPT-4o можно интегрировать и в другие стоковые приложения iOS: Заметки, Почта, Фото и т.д. К примеру, в Заметках GPT-4o может помочь с написанием и редактированием текстов, в Почте — с умной сортировкой и ответами, в Фото — с распознаванием объектов и описанием изображений.

С внедрением GPT-4o Apple также сможет реализовать совершенно новые функции с элементами искусственного интеллекта в iOS. Например, универсальный мультимодальный переводчик, помощник с распознаванием объектов дополненной реальности, генератор контента и многое другое.

Стоимость ChatGPT-4o: сколько стоит подписка

Одной из радостных новостей, связанных с релизом ChatGPT-4o, стало снижение его цены. Однако, если открыть сайт chat.openai.com и перейти в раздел оформления подписки, то довольно быстро станет ясно, что она стоит те же самые 20 долларов, которые просили за доступ к нейросети и раньше.

Обычная подписка на один аккаунт ChatGPT-4o стоит 20 долларов

Все потому, что снижение цены затронуло только API для сторонних разработчиков, которые используют чат-бота в своих сервисах. Они не платят фиксированную стоимость. Для них она рассчитывается, исходя из количества потраченных токенов, которые исчисляются миллионами. Раньше OpenAI брала за каждый миллион токенов 14 долларов США. Теперь эта цифра уменьшилась вдвое, и разработчики будут должны платить всего 7 долларов.

Тут, в общем-то, все просто. Выше мы говорили о том, что ChatGPT-4o стал тратить меньше токенов на обработку команд на многих языках мира. В ряде случаев затраты снизились в 2–3 раза. Такой подход позволяет OpenAI экономить ресурсы, а значит, компания может позволить себе распространять свой продукт дешевле.

Habrahabr.ru прочитано 2976 раз