Как искусственный интеллект меняет будущее: обзор конференции OpenTalks.AI 2023

6d9d93b2e07a92e9f006be78d6e39222.png

В начале прошлой недели в Ереване проходила самая крупная русскоязычная конференция по искусственному интеллекту OpenTalks.AI. На конференции было ~600 участников, ~100 спикеров и 28 сессий в рамках трех крупных секций — бизнес, разработка и наука.

Я попал в число этих 600 счастливчиков, представляю Хабру обзор докладов.

Дисклеймер: Все доклады послушать физически было невозможно, т.к. три секции проходили параллельно, поэтому я ходил на те, в предметной сфере которых я более-менее разбираюсь. Наверняка на Хабре есть и другие участники конференции, будет здорово если вы дополните мою заметку вашими комментариями по понравившимся докладам, на которые не попал я.

807405b15dca25487fd743442dd241a4.jpg

Началась конференция с выступления Дмитрия Коробченко из NVIDIA. Дмитрий рассказал про новые алгоритмы и инструменты в сфере создания цифровых персонажей (аватаров для метавселенных).

В этой сфере есть три ключевых исследования последних лет: новая архитектура нейросети DeepPhase Periodic Autoencoder для изучения и синтеза движений персонажей; модель нейросети EMOCA (EMOtion Capture and Animation), которая по одной фото может сделать 3D реконструкцию с различными заданными эмоциями; метод и одноименный фреймворк, основанный на нём, DeepMotionEditing, для более точного синтеза движений с учётом скелета.

Для тех, кому нужно больше подробностей — вот ссылки на статьи и код на github

Periodic Autoencoders for Learning Phase Manifolds — статья

EMOCA: Emotion-Driven Monocular Face Capture and Animation — статья, сайт, github

Skeleton-Aware Networks for Deep Motion Retargeting — статья, github

Все эти ноу-хау, насколько я понял, уже можно потестить в платформе NVIDIA Omniverse, и созданных на её базе приложений (так, например, для липиснга существует приложение Audio2Face). Ну, а решать более стандартные задачи, как синтез речи и распознавание речи, с GPU ускорением можно при помощи NVIDIA Riva SDK.

155c744d98a2f8e1eda2cd68b45d137e.jpg

Алексей Досовицкий из Google Brain представил обзор трендов и результатов в компьютерном зрении в 2022 году. Это был самый информационно ёмкий обзор на конференции, но из-за отсутствия большого количества времени на выступления для спикера слайды менялись так быстро, что я не всегда успевал схватывать мысль и перед написанием этой части обзора пришлось догугливать чтоб понять откуда что растёт.

Итак, тезисно:

Битва архитектур между сверточными сетями и трансформерами продолжается. В настоящий момент в области обнаружения объектов и сегментации естественных изображений доминируют семейства моделей Google ViT или Microsoft Swin Transformer. Однако в 2022 году Facebook* AI Research (FAIR) group представила семейство моделей ConvNeXt, основанных на светочной архитектуре, превосходящие по некоторым тестам нейросети-трансформеры. 

Google в свою очередь предложил алгоритм масштабирования архитектуры ViT до 22 миллионов параметров (!), гибридную нейросеть MaxViT (MaxViT = CNN + ViT) и модель OWL-ViT, являющуюся тюнингом модели CLIP от OpenAI и превосходно решающую задачу One-Shot object detection (OSOD), когда образцов объекта может быть всего один. 

Также в прошлом году Google добавил в Tensorflow ещё один новый метод классификации изображений на основе открытого словаря (Open-vocabulary detection, OVD), называемый ViLD (Vision and Language knowledge Distillation). 

С ростом количества данных всё сложнее и дороже становится использовать обучение с учителем и ученые давно работают в сфере автоматизации разметки данных. После появления трансформерной архитектуры её отдельные части получали отдельное существование. Вначале OpenAI разработал всем известный GPT, затем Google создал BERT, используя энкодер GPT. Обе этих модели объединяет стратегия обучения на большом корпусе неразмеченных текстов. В 2021 году Microsoft предложила распространить подход и на изображения, так появились модели BEiT, у которых в прошлом году уже вышла 3-я версия.

В 2022 у BEiT появился прямой конкурент от Google — модель PaLI. 

Microsoft в ответ выпустила фреймворк SimMIM (A simple framework for masked image modeling), который в 2022 был слит с основным репозиторием модели Swin Transformer.

Google ответил выпуском pix2sec, дающий возможность детектировать и попиксельно размечать сразу множественные объекты.

А Meta выпустил алгоритм фреймворк data2vec, который подходит и для текста, и для аудио, и для визуального контента.

Allen Institute of AI (НИИ Microsoft имени Пола Аллена) выпустил универсальную модель Unified-IO, которая, как утверждается, одинаково подходит и для компьютерного зрения (CV) и для обработки текстов на естественном языке (NLP)

Кстати, интересный факт — Facebook* еще в 2021 предложил интересное применение трансформерного подхода — Masked autoencoder (MAE), позволяющий предсказать картинку целиком по отдельным её кусочкам и в целом дающий возможность ускорить обучение на большом корпусе неразмеченных картинок в 3 раза. В 2022 инженеры из Google развили концепт и создали нейросеть-трансформер MaskGIT, которая позволяет органично вписывать части одного изображения в другое и перерисовывать картинки. А инженеры из Facebook* создали ViTDet (ViTDet = ViT + МАЕ), еще более увеличивающий производительность MAE. В настоящий момент ViTDet является частью OpenCV фреймворка от Facebook detectron2.

За прошлый год появились и много моделей для решения более узкоспециализированных задач.

Так, поглощенная в 2014 году Google британская ИИ-компания DeepMind представила Flamingo — нейросеть, решающая по сути ту же задачу что и широко известный CLIP от OpenAI, обученный на огромном массиве пар «изображение-текст». Нейронка Deepmind Flamingo отлично подходит для распознавания изображений и видео с минимальными примерами для конкретных задач, при этом она может учитывать и стиль аннотаций. А для автоматической классификации на основе CLIP в конце 2022 года появился алгоритм PACL (Patch Aligned Contrastive Learning).

В области сегментации изображений и обнаружения объектов в 2022 году появилась также одна принципиально новая архитектура (семейство моделей) — Mask2Former от Facebook*. Пока данных по ней мало, но предварительные тесты на стандартных датасетах многообещающи.

За прошлый год также появилась новая модель от Google, генерирующая 3D изображение на основе фото — MipNerf-360, являющаяся разновидностью архитектуры нейронного поля яркости (NeRF, neural radiance field). Что интересно, в этой задаче помимо нейростевых методов появляются и новые обычные — в прошлом году появились Plenoxels (plenoptic voxels).

В завершении своего обзорного доклада Алексей упомянул про 4 модели генерации изображений из текста, появившиеся за последний год.

  • Dall-E 2 от OpenAI (наверняка вам известная)

  • Parti (Pathways Autoregressive Text-to-Image), заточенная на генерацию фотореалистичных изображений

  • DreamFusion, работающая по принципу 3D диффузии (картинки получаются весьма специфично выглядящие)

  • Muse, заточенная на генерацию по маске (самая свежая и самая быстрая модель по сравнению с Dall-E и Parti)

3 из 4 моделей от Google — в задаче генерации 3D компания лидирует с большим отрывом

© Habrahabr.ru