Иван Ташев: Когда-нибудь мы будем разговаривать с компьютерами06.07.2011 09:18

В Москве побывал Иван Ташев ― один из ведущих ученых научно-исследовательского центра Microsoft Research в сфере разработки голосовых технологий. Как говорит сам Иван, он работает для того, чтобы люди могли разговаривать со своими компьютерами. Последнее из достижений Ивана ― разработка технологии распознавания и улавливания человеческого голоса при взаимодействии с сенсорным контроллером Kinect, даже в условиях сильного шума вокруг. Алгоритм, разработанный Иваном, автоматически отсекает все посторонние шумы, которые встречаются ему на пути от пользователя до Kinect, и чистый звук голоса пользователя, дающий системе команды, без помех достигает контроллер, где он и обрабатывается. При этом пользователь может отойти от Kinect на 4 метра – и чистота распознавания звукового сигнала останется прежней.

*****

Иван Ташев получил образование в Техническом университете Софии (Болгария). В 1990 году он, защитив диссертацию, стал кандидатом технических наук. В 1998 году Иван пришел на работу в Microsoft, а спустя три года перешел в Microsoft Research. Сейчас он ― главный архитектор Группы речевых технологий исследовательского подразделения корпорации.

Иван Ташев ― автор 40 технических изобретений, запатентованных в США. Его перу принадлежат 4 книги и 70 научных статей, опубликованных в ведущих специализированных журналах. Последняя книга Ивана Ташева, «Захват и обработка звука» (“Sound Capture and Processing”) вышла в свет в 2009 году.

Среди достижений Ивана Ташева за время его работы в Microsoft Research особо выделяются «виртуальные наушники», ― система персонального аудио пространства. Это изобретение позволяет человеку слушать запись музыки или речи, не мешая окружающим, и не использовать при этом специальных приспособлений, таких, как наушники. Особая настройка динамиков аудиосистемы посылает звуковой сигнал только в определённую точку, в ту самую, где в настоящий момент находится пользователь.

*****

Иван Ташев рассказал нам о том, как будет развиваться технология распознавания голоса, как в обозримом будущем она позволит нам управлять своими компьютерами. Но, сначала Иван продемонстрировал технологии, которые разрабатывают он и его коллеги.

Иван, расскажите, пожалуйста, о Вашем последнем изобретении. Как долго Вам пришлось работать для того, чтобы получить результат, который Вы нам продемонстрировали только что?

Два года назад, руководство продуктовой группы, продвигающей Xbox 360 впервые обратилось за помощью в исследовательскую лабораторию Microsoft, и я начал работать над этим проектом. К тому моменту у нас уже имелись все технологии, задействованные сегодня в механизме обработки звуковых данных Kinect. Нам необходимо было каким-то образом их объединить и «заставить» взаимодействовать, что тогда казалось чисто технической задачей. Однако большинство моих коллег и специалистов в этой области заявили, что это попросту невозможно, так как довольно сложно уловить негромкую речь человека с расстояния четырех метров, при звуке, который воспроизводит сама аудиосистема игровой консоли. Крайне трудно добиться и нужного качества сигнала при постронних шумах, который поступает в систему распознавания речи. чтобы их можно было понять и выполнить голосовые команды. Это была проблема, над решением которой я и группа Xbox, одна из лучших проектных групп в Microsoft, бились в течение 2 лет.

Я думаю, что это начало долгого пути. Мы лишь приоткрыли завесу, за которой кроется эра голосовых интерфейсов. Уже сегодня чувствуется, что голосовой интерфейс в Xbox 360 ограничен и охватывает лишь малую часть всех возможностей. Скоро ситуация изменится, мы пойдем дальше. В ближайшем будущем мы сможем, не вставая с места, запрашивать фильмы и музыку, которые будут автоматически загружаться и воспроизводиться на наших электронных системах.

Иван, в чем, на Ваш взгляд, актуальность технологии распознавания речи для Kinect? Каковы перспективы ее практического применения?

Я думаю, что разработанная нами технология распознавания речи может выйти далеко за рамки компьютерных игр. В данном случае мы нашли ей подходящее применение, предоставив человеку возможность выбирать звуковые и видео-файлы при помощи голосовых команд.

Дело в том, что при помощи жестов вы без труда можете выбирать из нескольких элементов, однако, если у вас в базе данных три тысячи фильмов, повторять один и тот же жест три тысячи раз было бы, по меньшей мере, не слишком удобно. С помощью технологии распознавания речи вместо этого вы просто даете команду «просмотр фильма» и произносите его название. Система распознавания речи, кстати, способна понимать даже неточные голосовые команды или названия.

Таким образом, технология распознавания речи хороша, когда нужно сделать выбор из обширного списка фильмов, песен и так далее, в то время как с помощью жестов удобно выбирать из небольшого ряда элементов. Объединив эти две технологии, мы получим мощный и к тому же легкий в применении инструмент. К этой цели мы и стремимся.

Насколько серьезна для развития технологий распознавания речи проблема локализации? Это ― давняя проблема. У нас есть механизм распознавания речи, который подходит для любого языка. Необходимо получить сотни тысяч часов звуковых записей для каждого отдельного языка и сформировать так называемые акустические модели, что займет около двух недель работы на мощном вычислительном кластере из тысячи машин. Мы серьезно подошли к этой проблеме, поскольку на данный момент она имеет не последнее значение для Майкрософт. Мы выпускаем Windows 7 на 37 языках мира, а для Xbox 360 требуется расширить свое присутствие на рынке. Сбор данных и формирование акустических моделей - это большой объем кропотливой исследовательской работы, которая сейчас ведется в Майкрософт, и эта проблема все еще не решена.

Насколько для технологии распознавания голоса, на Ваш взгляд, сложна задача понимания различных языковых диалектов и особенности произношения. К примеру ― «австралийский» английский или южнорусский говор?

Для системы распознавания речи британский, американский, канадский и австралийский варианты английского ― это 4 различных языка. То же самое верно и для диалектов. Есть несколько способов решить эту проблему. Одно из самых вероятных решений ― так называемая система адаптации под говорящего. При работе с каждым человеком система адаптируется к тому, как он говорит, к его индивидуальному акценту, как у меня, или довольно распространенному диалекту. Кроме того, у Kinect есть видеокамера и функции «скелетного» распознавания, которые дают системе дополнительные возможности для взаимодействия. Если вы встанете перед ней, система узнает вас и мгновенно загрузит акустические модели, которые система «запомнила» в ходе предыдущего общения с Вами.