Google представила нейросеть Imagen, которая генерирует изображения по описанию
Запрос от редактора Хабра: фото персидского кота в ковбойской шляпе и чёрной кожаной куртке, играющего на гитаре в саду
Компания Google представила собственную нейросеть, которая генерирует изображения по описанию. Её разработала команда исследовательского проекта Google Brain, которая специализируется на изучении искусственного интеллекта на основе глубокого обучения.
Для распознавания текстового запроса нейросеть использует большие языковые модели — на них же основаны алгоритмы обработки естественной речи вроде GPT-3. Система работает в три этапа. На первом генерируется картинка размером 64×64 пикселя, которая дорабатывается до тех пор, пока нейросеть не может её изменить для лучшего соответствия исходному запросу. Затем размер изображения увеличивается до 256×256 пикселей. На третьем этапе то же самое повторяется уже с изображением финального размера 1024×1024 пикселя.
Google отметила, что Imagen справляется с понимаем сложных запросов лучше, чем DALL-E 2. Компания предложила группе тестировщиков сравнить иллюстрации, созданные при помощи Imagen, DALL-E 2 и других моделей преобразования. Эксперимент показал, что люди чаще всего отдавали предпочтение изображениям, сгенерированным нейросетью Google.
Однако нейросеть от OpenAI опережает аналогичную от Google, поскольку уже появляется полноценной, хоть и закрытой бета-версией, и люди используют её для выполнения повседневных задач и развлечения.
Проект Google по-прежнему находится в экспериментальной фазе, однако компания предложила опробовать нейросеть в ограниченном технодемо. Пользователи смогут только выбирать слова из предложенных.
Ранее OpenAI представила DALL-E 2: нейросеть научилась редактировать готовые картинки и улучшила качество изображения. Компания предоставила доступ к своему сервису ограниченному количеству пользователей.