Word для человеческой речи: что он умеет

В Descript разработали аудиоредактор, который помогает получить не просто текстовые транскрипты подкастов, выступлений или переговоров, но и отредактировать сами аудиозаписи также легко как обыкновенный текст в Word.

В конце прошлого года Descript — стартап Эндрю Мэйсона (основателя Groupon) — привлек 5 млн долларов от венчурного фонда a16z (Andreessen Horowitz).

В этой статье мы расскажем подробнее о том, что из себя представляет новый продукт, и затронем другие разработки в области транскрибации.

xlvmd5p2y_wyu7hyrbahpevzdqc.jpeg
/ фото / Victorgrigas / CC

Как появился Descript и какую проблему он решил


Descript запустился три года назад в качестве одного из внутренних инструментов еще одного приложения, которым занимается Эндрю. Это приложение — Detour — аудиогид, заменяющий экскурсовода заранее прописанными турами и рассказами о достопримечательностях.

Сейчас сервис предлагает более 150 аудиоэкскурсий по 17 крупнейшим городам мира. Запись и монтаж аудиозаписей — достаточно трудоемкий процесс, который требует времени и работы специалистов. С другой стороны, бизнес-модель компании предусматривает достаточно быстрое масштабирование и привлечение большого числа спикеров, которые не обладают необходимыми навыками для обработки записей.

Здесь и включается Descript — аудиоредактор с возможностью транскрибации. Он переводит рассказ в текстовую форму и позволяет редактировать аудиозапись уже в текстовом виде. Таким образом, компания оптимизирует процесс озвучки и обработки записей аудиоэкскурсий.

Последние два с половиной года команда Detour помогала производителям аудиоконтента работать с Descript. Опыт, накопленный в ходе такого взаимодействия, позволил компании доработать приложение и выпустить его в качестве самостоятельного продукта.

Что может этот аудиоредактор


Возможности Descript в его нынешнем состоянии таковы:

  • Работает с записями в форматах .m4a, .mp3, .aiff, .aac, and .wav — на обработку можно загружать сразу несколько аудиофайлов.
  • Транскрибирует с точностью 93,3% — по словам компании, которая сравнивает его с конкурентами — Temi (88.3%), Trint (87.4%), Happyscribe (86.6%) — и приводит сравнительную табличку тематических сервисов с примерами аудиозаписей.
  • Позволяет добавлять паузы и переставлять местами фрагменты, при этом правки синхронизируются с аудиозаписью, которую можно сразу прослушать — по принципу WYSIWYG.
  • Может экспортировать проект в Apple Logic Pro X, AVID Pro Tools, Adobe Audition и дает возможность комментирования по аналогии с режимом правок в Word или Google Docs.


Аналоги сервиса используют тематические API от IBM Watson, Speechmatics, Nuance, Microsoft и Amazon. Команда Descript выбрала соответствующий API Google.

Основной аргумент в его пользу по словам команды — доступ к огромным объемам данных, необходимых для моделирования и точного распознавания речи — в случае с Google таким репозиторием речевых образцов выступает, например YouTube.

Кто еще делает что-то подобное


В 2016 году сотрудники Принстонского университета разработали еще один «фотошоп для аудио» — VoCo (кстати, alizar уже рассказывал о нем ранее). Этот инструмент похож на Descript, и позволяет не только редактировать аудиозаписи в текстовом виде, но и синтезировать новые слова или фразы голосом спикера (даже если они не фигурировали в оригинальной записи). Для этого необходима запись от 20 минут. VoCo учитывает контекст и добавляет соответствующий интонационный акцент на новые фрагменты.

Такие сервисы могут помочь не только журналистам, медиакомпаниям или предпринимателям, создающим тематические стартапы на основе использования аудиоконтента. Тем людям, которые в силу наличия специфических заболеваний могут общаться только с помощью систем синтеза речи, VoCo и аналоги помогут разговаривать менее «роботизированным» голосом. Один из наиболее известных примеров — система синтеза речи, разработанная Intel специально для Стивена Хокинга (об этой системе и более ранних аналогах рассказывали на GT здесь и вот тут).

zbzc0gckdnte8jn1yekpskxi7ak.jpeg
/ фото / Intel Free Press / CC

Стартап Lyrebird, представленный в этом году, пошел по пути VoCo. Если сравнивать его возможности с проектом Принстонского университета, то Lyrebird достаточно проанализировать всего 60 секунд аудиозаписи для последующего синтеза речи.

В этом году о себе также заявил стартап Voysis, который нацелен на применение в нише аудиосервисов вроде Siri и Alexa. Еще один проект — сервис NowTranscribe, специализирующийся на прогнозировании тех фрагментов, которыми можно дополнить или скорректировать оригинальную аудиозапись. И очередной пример — Trint, способный понимать, какому из спикеров принадлежит та или иная фраза, произнесенная на записи. Этот проект работает с 13 языками и направлен на задачи, связанные с протоколированном конференций и переговоров.

Синтез речи и этический вопрос


Появление Descript и аналогичных сервисов поднимает вопрос этичности использования систем синтеза речи. С помощью таких инструментов любой человек может сфабриковать новую аудиозапись из разрозненных фрагментов речи другого человека. Это открывает возможность для различного рода мошеннических схем, атак с помощью методов социальной инженерии и нанесения прямого ущерба репутации спикеров.

Разработчики таких проектов прекрасно понимают эту ситуацию. На сайте стартапа Lyrebird есть целый раздел, посвященный этической стороне вопроса. А Эндрю Мэйсон, руководитель Descript, подчеркивает, что в скором времени доверие к любым аудиоматериалам может упасть по аналогии с фотографиями, которые можно изменить с помощью известных графических редакторов.


Интересное о звуке — другие материалы, которые мы подготовили для вас:

© Geektimes