Голосовой поиск Google теперь работает и на русском языке

Сегодня, 22 сентября компания Google официально представила сервис голосового поиска в России. Пресс-конференция, посвященная этому событию, прошла в Москве в Галерее на Солянке. В качестве спикеров выступили Hugo Barra – директор по мобильным продуктам Google, Евгений Вейнштейн – один из авторов технологии распознавания речи на русском языке и Андрей Дроничев, менеджер по продуктам Google.

Google, голос!

Работает голосовой поиск Google так. Нажимаете кнопку на мобильном телефоне (рядом со строкой поиска), произносите запрос вслух(желательно при этом говорить прямо в микрофон), например: "Галерея на Солянке". Телефон сохраняет полученные звуковые сэмплы и отправляет их на сервер Google. Затем браузер выдает строку с распознанным текстом и ответы поисковой системы на ваш запрос. Звучит замысловато, но на деле – очень удобно.

На первый взгляд, с большинством популярных запросов голосовой сервис Google справляется хорошо. Например, на запрос "500 баксов в рублях",сказанный в телефон вы, скорее всего, получите ответ точно такой же, как и в случае набора текста с клавиатуры. А именно: "500 долларов США = 15 512.0529 российских рубля".

Тоже самое – с погодой. На голосовой запрос "Погода в москве" с вероятностью близкой к 100% вы получите желаемый ответ в первой строчке: "10 градусов тепла, дождь". Проблема с распознаванием может возникнуть, в случае если у телефона не все в порядке с микрофоном, кроме того угрозу представляют внешние шумы. Качество результата может зависеть и от конкретной модели телефона – не все микрофоны одинаково "полезны". К примеру, спикеру Hugo Barra, директору по мобильным продуктам Google, так и не удалось заставить Google корректно транслировать фразу "Pushkin restraunt" в текст. Великий русский поэт Pushkin превратился в бессмысленное словосочетание Push Can.

На самом деле, распознавание речи на разных языках – очень сложная задача, которую с переменным успехом решают в течении многих лет и продолжают решать до сих пор. Здесь целая тонна подводных камней – различные тембры голоса, множество акцентов и, конечно, особенности и правила языка. Основу вычислений Google составляет вероятностная модель: сервер соотносит полученные голосовые сэмплы со своей базой, и в, первую очередь, с наиболее популярными запросами. На практике это выливается в проблему с распознаванием редких слов и выражений: экзотических имен собственных, фамилий или аббревиатур. Со слов спикеров, компания Google проделала огромную работу – в проект вовлечены множество добровольных тестеров с различными моделями телефонов и особенностями голоса и произношения, благодаря чему удалось достигнуть результата, который не стыдно продемонстрировать.

Однако, работать еще есть над чем. Алгоритм голосового распознавания (как, впрочем, и текстового поиска), совершенствуется с каждым новым пользовательским запросом. Так что, качество голосового поиска – это лишь вопрос времени.

Технология распознавания речи Google может быть встроена в любое приложение (код открыт для всех желающих). На пресс-конференции был продемонстрирован голосовой набор SMS-сообщения. При этом, некорректно распознанные слова всегда можно поправить с помощью клавиатуры. Невероятно удобен голосовой набор при навигации. В приложении Google Navigation продиктовать пункт назначения – например, "Аэропорт
Домодедово" – и вы тут же получаете оптимальный маршрут. И все это без помощи рук.

Несмотря на то, что объем пересылаемых голосовых данных, со слов спикеров, в среднем не превышает 100 Кб, практика показала: чтобы голосовой поиск работал хорошо, необходима приличная скорость доступа в интернет. По GPRS пользоваться сервисом проблематично. По 3G – более-менее. Ну и совсем хорошо, если вблизи есть точка доступа Wi-Fi.

Важный момент: чтобы искать голосом по-русски, нужно обязательно использовать русский в качестве языка интерфейса. Поиск на английском языке поддерживается независимо от языка интерфейса.

Куда мы катимся

Главный технологический тренд будущего, по мнению представителей Google – это супервычисления (mobile supercomputing). Тенденция подразумевает три вещи:

а) постоянный доступ в сеть большого количества пользователей со всевозможных электронных устройств – и в первую очередь с мобильных телефонов

б) облачные вычисления – основа всех сервисов Google
в) забудьте про привычные средства ввода. Когда вы говорите в микрофон на вашем телефоне – вы говорите прямо в ухо суперкомпьютеру, если вы снимаете на камеру – его всевидящее око не дремлет. Под суперкомпьютером, в данном случае подразумевается множество серверов Google, объединенных в сеть.

Идеалогия супервычислений получила воплощение не только в голосовом поиске Google, но также и в распознавании изображений на ходу. Вы снимаете какой-то объект на камеру, с помощью программы Google Goggles тут же отправляете его в сеть, и получаете в ответ информацию об этом объекте. На сегодняшний день это очень хорошо работает на том же Android, например, в случае с известными достопримечательностями. В соответствии с главным трендом, анонсированный голосовой сервис Google работает на данный момент уже на трех мобильных операционных системах: Android, iOS и Symbian S60. Насчет Windows Phone и настольных ОС пока ничего не сообщается, но в планах у Google охватить все популярные платформы.

Где скачать программу для голосового поиска Google

Пользователи Google Android (версия 2.1 и выше) найдут приложение в Android Market по ключевым словам <<голосовой поиск>>. Для владельцев iPhone в Apple App Store есть программа Google Mobile App. По этому адресу приложение доступно также и пользователям Nokia под управлением Symbian S60.


Официальная страничка сервиса

©  mobi.ru