Нейросеть научили рисовать мультики по текстовому сценарию
Разработчики из Института искусственного интеллекта Аллена и Иллинойского университета создали систему CRAFT (Composition, Retrieval and Fusion Network), задача которой — генерировать анимированную картинку по текстовому описанию. За основу взяли мультсериал «Флинстоуны». Тексты, доступные пониманию нейросети, шаблонные: в них должна быть описана обстановка (например, кухня или гостиная) и перечислены персонажи и их действия (сидит, стоит, идет, читает книгу, говорит).
Нейросети, входящие в систему CRAFT, обучали на 25 тысячах вручную обработанных роликов из мультсериала «Флинстоуны». Обработка заключалась в разметке кадров (в каждом ролике их было 75); ученые выделяли на них персонажей, фон и их действия. Система подбирает подходящие под текстовое описание фрагменты из этой библиотеки и компилирует из них новые ролики. Иногда CRAFT ошибается — путает действия или разворачивает героев не в ту сторону лицом.
Препринт статьи с описанием системы CRAFT доступен в репозитории arXiv.org.