Нейросеть научили рисовать мультики по текстовому сценарию16.04.2018 17:06

1e9a3cfa47da342b08ac31847a39d3f3_ce_1280

Разработчики из Института искусственного интеллекта Аллена и Иллинойского университета создали систему CRAFT (Composition, Retrieval and Fusion Network), задача которой — генерировать анимированную картинку по текстовому описанию. За основу взяли мультсериал «Флинстоуны». Тексты, доступные пониманию нейросети, шаблонные: в них должна быть описана обстановка (например, кухня или гостиная) и перечислены персонажи и их действия (сидит, стоит, идет, читает книгу, говорит).

Технологии
Кресла вместо бомб: Ту-164, бизнес-джет на базе бомбардировщика Ту-160
Технологии
Как обогащают уран: метод центрифужного разделения изотопов

Нейросети, входящие в систему CRAFT, обучали на 25 тысячах вручную обработанных роликов из мультсериала «Флинстоуны». Обработка заключалась в разметке кадров (в каждом ролике их было 75); ученые выделяли на них персонажей, фон и их действия. Система подбирает подходящие под текстовое описание фрагменты из этой библиотеки и компилирует из них новые ролики. Иногда CRAFT ошибается — путает действия или разворачивает героев не в ту сторону лицом.

Препринт статьи с описанием системы CRAFT доступен в репозитории arXiv.org.