Патент недели: российские программисты создали "говорящую голову"22.06.2020 13:22

Российские программисты воплотили метафору в реальность.

При непосредственном участии Федеральной службы по интеллектуальной собственности («Роспатента») мы решили ввести на сайте рубрику «Патент недели». Еженедельно в России патентуются десятки интересных изобретений и усовершенствований — почему бы не рассказывать о них в числе первых.

Патент: 2723454

Авторы: Альберт Ефимов; Алексей Гонноченко; Михаил Владимиров

Патентообладатель: Сбербанк России

Выражение «говорящая голова» встречалось почти каждому. В различных контекстах оно может обозначать разные понятия: от телевизионного ведущего-новостника, диктора за столом в студии, до человека, который особо не раздумывает над смыслом произносимых тезисов. Российские программисты решили, что этому выражению пора обрести реальное воплощение.

Технология, придуманная отечественными разработчиками, сочетает в себе два основных алгоритма. Первый — это синтез речи на основе написанного текста. Подобные технологии, например, используются на новостных сайтах, чтобы люди с ограниченными возможностями, могли усвоить материал на слух: в текстовый материал на странице встраивается специальный плеер, который на основе текста выдает звуковой файл.

Вторая технология — это синтез 3D-проекции лица на основе звукового сигнала. Программное решение, заложенное в основе упомянутого алгоритма, используя нейросети, помогает создавать точную действующую мимическую модель человеческого лица. Другими словами, вы будете не просто слышать из «уст» проекции какой-то текст, но и получать невербальную информацию, которую при общении двух людей мы считываем, слушая интонации и наблюдая за меняющейся мимикой собеседника. Мимическое выражение, точнее последовательность кадров динамической текстуры лицевой маски, 3D-проекции будет определяться на основе последовательности изображений частотного спектра звукового файла.

Технологию российских программистов можно использовать, например, для впечатляющей телевизионной и видео-рекламы, для визуальных шоу, спектаклей и игр, создания 3D-фильмов и анимации, в голосовых помощниках и «умных» домах, в процессах коммуникации большого количества людей и диктора (например, на вокзале или в аэропорту), а также различных терминалах.

Подробности технологии — в опубликованном патенте.