[Перевод] Почему Sora от OpenAI так плохо генерирует видео с гимнастками?13.12.2024 15:45

На этой неделе компания OpenAI предоставила своим платным клиентам генератор изображений Sora Turbo, и в социальные сети хлынул поток работ с использованием Sora, многие из которых очень впечатляют. Единственное, в чем модель не очень хороша, так это в изображении гимнастики, и причины этого многое говорят о текущих проблемах генераторов обучающего видео.

Дисклеймер: это вольный перевод колонки издания Fast Company. Перевод подготовила редакция «Технократии». Чтобы не пропустить анонс новых материалов подпишитесь на «Голос Технократии» — мы регулярно рассказываем о новостях про AI, LLM и RAG, а также делимся полезными мастридами и актуальными событиями.
Обсудить пилот или задать вопрос об LLM можно здесь.

Sora оказалась практически неспособна создавать видео с гимнастами, создавая вместо них странных людей, которые прыгают по воздуху и иногда приземляются на три ноги или дополнительную голову.

Причина неудачи Sora, по мнению главного инвестора Menlo Ventures Диди Даса, кроется в ее понимании физики.

Большинство генеративных видеомоделей обучаются предсказывать появление новых пикселей на экране, говорит Дас, на основе пикселей, которые появились на предыдущих кадрах. Это может показаться похожим на то, как работают языковые модели, и это потому, что, в отличие от других популярных генераторов видео, Sora использует ту же архитектуру моделей-трансформеров, что и большие языковые модели (LLM). И, как и в случае с большинством LLM, исследователи надеются, что видеогенераторы, угадывая, каким будет следующий набор пикселей, начнут формировать обобщенное понимание того, как устроен мир. Это означает формирование понимания физики — правил, управляющих перемещением объектов в пространстве. Исследователям ИИ предстоит еще поработать над этим.

«Некоторые говорят, что все получится, если подкинуть в проблему больше данных по гимнастике, но кажется маловероятным, что правильный способ «выучить физику» — это дать достаточно примеров», — говорит Дас. «Но правила физики действуют во многих произвольных ситуациях, которых может и не быть в данных».

Представитель OpenAI, отвечая на вопрос о том, как он относится к видео с гимнастками, написал по электронной почте, что текущая модель Sora «может с трудом имитировать физику сложной сцены и не понимать конкретные случаи причинно-следственных связей (например, на печенье может не появиться след после того, как персонаж его надкусит)».