«Я слышу голоса» или есть ли у Siri лицо13.03.2017 12:37

Голоса мы слышим постоянно: в метро, в навигаторах и в наших смартфонах. И если в том, что голоса в метро принадлежат настоящим людям, сомневаться не приходится, то вот ответ на вопрос, кто озвучивает виртуальных помощников и роботов, скоро может перестать быть таким однозначным.

С другой стороны, актерам озвучания пока можно не бояться потерять работу, ведь даже для озвучки робота BB-8 из «Звездных войн» привлекался Билл Хейдер (Bill Hader), ведущий известного американского шоу Saturday Night Live на NBC. Обо всем подробнее в сегодняшнем материале.

Фото Vancouver Film School CC-BY

Siri

Почти все слышали, как звучит американская версия Siri, но мало кто задумывается, что этот голос принадлежит реальному человеку, профессиональной актрисе озвучания, Сьюзан Беннетт (Susan Bennett). Правда, сама актриса во время работы над записью даже не представляла, что ее голос будет звучать из каждого кармана. Дело в том, что запись производила компания, занимающаяся преобразованием текста в речь, которую позже выкупила Apple.

В 2005 году Сьюзан проводила в звукозаписывающей студии 20 часов в неделю, но это были очень напряженные 20 часов: приходилось часто делать перерывы, пить много воды и начитывать абсолютную чушь, состоящую из набора всевозможных несвязанных слов. Для того, чтобы звуки можно было потом соединять в нужные слова, которые звучали бы естественно, необходимо проговорить все возможные сочетания звуков в языке. А доработка озвучки в 2011 году заняла уже 4 месяца, правда и работала «голос Siri» всего по два часа в день.
Подробнее о Siri и о том, как проходила запись, рассказывает сама Сьюзан Беннетт в выступлении на TED Talks:

[embedded content]

Актриса переживает о незащищенности прав актеров озвучания — их голос может использоваться в каких угодно целях, и они не получают никаких дополнительных денег даже за такое коммерческое использование.

Британскую мужскую версию Siri под именем Daniel озвучивал теле- и радиоведущий Джон Бриггс (Jon Briggs), который тоже не знал, что его голос будет использован для Siri, пока не увидел рекламу по телевизору. Он также записывал голос для компании Scansoft в 2005. Ее позже выкупила Nuance, которая совместно с Apple и занимались разработкой Siri. Во время работы Джон записал 5 тысяч предложений за три недели, но в отличие от Сьюзан, его вполне устраивает полученный за озвучку гонорар.

Женщины против мужчин

А вот актриса, которая записывает голос для Google Now, предпочитает не показывать своего лица. Зато можно посмотреть, как происходит сам процесс записи:

[embedded content]

Актриса отмечает, что этот процесс достаточно сложный, так как необходимо говорить в одном темпе и с одним тембром. Менять голос на протяжении всей записи нельзя, при этом следует соблюдать правильные интонации. Но в Google за этим следит команда, состоящая из лингвиста и специалиста по сценической речи, что позволяет в конечном счете получить более естественную речь.

В случае с Cortana от компании Microsoft ситуация совсем другая: сам образ и имя виртуальной помощницы было заимствован из серии игр Halo. Поэтому и для ее озвучки была приглашена та же актриса, которая работала над голосом одноименной героини в видеоиграх. Джен Тэйлор (Jen Taylor) точно знала, для чего будут использоваться записи, да и вообще никак не скрывалась и даже играла роль Кортаны в мини-сериале «Halo 4: Идущий к рассвету» в 2012 году.

Большинство виртуальных помощниц говорят женским голосом или названы женскими именами. Некоторые даже видят в этом проявление цифрового сексизма. Однако результаты исследований показывают, что женский голос чаще выбирают сами пользователи. Люди считают, что он звучит дружелюбнее, а мужской воспринимается как более агрессивный.

Это, конечно, не всегда так, большую роль играет интонация и тембр. Разница между восприятием двух разных мужских голосов можно увидеть на примере домашнего виртуального помощника Марка Цукерберга. Помощника зовут Jarvis, и с голосом Моргана Фримана он воспринимается как очень учтивая и воспитанная система:

[embedded content]

Мы едем, едем, едем

Еще большее количество людей сталкивается с синтезированным голосом при использовании навигаторов. Мужской голос Яндекс.Навигатора был записан профессиональным диктором, а вот для записи женской версии привлекалась сотрудница компании. Запись заняла всего 3 часа, а текст уместился на 4-х листах, что, в сравнении с озвучкой виртуальных помощников, совсем немного.

Для построения предложений, которые произносит навигатор, используются отдельные слова, но на записи приходилось произносить целые фразы, чтобы текст звучал более естественно. Для озвучки навигатора к олимпиаде был приглашен Василий Уткин, который провел в студии несколько часов и наговорил 160 фраз. В навигаторе используются только 120, но создатели обещали менять некоторые из них, чтобы разнообразить поездки. А некоторые фразы Василий даже придумал сам.

Свои особенности есть и в озвучке объявлений в метро. Например, первые записи с современными голосами метро производились более 20 лет назад, а это значит, что писались они на катушки с пленкой. Поэтому у актеров не было права на ошибку. Точнее, если ошибка была допущена, приходилось переписывать все сначала. Да и сейчас, если к какой-то записи необходимо добавить новую информацию, приходится перезаписывать озвучку всей ветки целиком.

И лицо есть не только у Siri, но и у московского метрополитен. На самом деле их даже три: актёры, радио- и телеведущие Юлия Романова-Кутьина, Сергей Куликовских и Алексей Россошанский. К разным праздникам к озвучке объявлений привлекаются знаменитости или дети. А вот на то, что именно говорят голоса в метро, могут повлиять обычные люди. Например, после того как активисты выразили недовольство фразой «Просьба освободить вагоны», ее заменили на «Просьба выйти из вагона».

Но в скором будущем синтезирование речи будет происходить совсем иначе благодаря разработке Google. WaveNet синтезирует речь не из фрагментов записей человеческого голоса: программа воспроизводит звуковые волны, анализируя их с помощью сверточных нейронных сетей (послушать можно тут).

Кроме голоса она может даже имитировать музыку. Пока такая технология еще достаточно дорогая, так как для обучения сетей и обработки записей требуется достаточно много ресурсов и времени, но уже сейчас 50% людей в контрольной группе приняли речь WaveNet за человеческую. А в будущем можно будет сымитировать голос и интонации любого человека, правда, для обучения все равно пока нужны записи голоса настоящих людей.

P.S. Что еще можно почитать в нашем блоге: