«Системы речевых коммуникаций»: создана новейшая технология автоматического распознавания речи04.05.2011 15:16

Инновационное предприятие «Системы речевых коммуникаций» объявило о коммерческой доступности новейшей технологии автоматизированного распознавания речи. Это итог многолетней работы коллектива ученых Нижегородского государственного лингвистического университета.

В основе технологии лежит новый метод фонетического декодирования слов, позволивший добиться значительных преимуществ по сравнению с существующими решениями в области распознавания речи. Вот некоторые из ключевых особенностей новой разработки:

Работа в режиме реального времени со словарем в несколько тысяч слов.
Минимальная потребность в вычислительных ресурсах. Для словаря объемом в 1000 слов выигрыш составляет более 200 раз по сравнению с аналогами.
Автоматическая процедура формирования и обновления рабочего фонетического словаря из тематического письменного текста произвольного объема. Для пополнения словаря на 1000 слов достаточно всего 3 минут!
Возможность выбора национального языка из широкого списка.
Независимость распознавания речи от индивидуальных особенностей и возраста диктора.

Наибольшей проблемой для всех известных технологий автоматического распознавания речи является формирования рабочего словаря. Добавление или изменение в рабочем словаре даже одной позиции превращается в сложную и трудоемкую процедуру. Технология, разработанная нижегородскими учеными обеспечивает рост эффективности на несколько порядков!

«Покажите характеристики нашей технологии любому специалисту в области распознавания речи, и он вам скажет, что это невозможно, - говорит руководитель коллектива разработчиков, доктор технических наук, профессор Владимир Савченко. - Никто до нас не реализовал процедуру автоматического формирования звукового рабочего словаря из письменного текста, поскольку хорошо известно, что устная и письменная речь - это, по сути, два разных языка. Мы в своем проекте достигли невозможного, и этим все сказано!»

Представленная технология может быть использована в широком спектре приложений. Вот некоторые примеры:

Голосовой поиск информации в тематических базах данных через Интернет и телефонные сети
Системы голосового управления
Информационно-справочные службы с автоматической обработкой запросов по телефону
Системы автоматических секретарей и системы автоматического речевого перевода
Интернет-магазины и торговые системы заказов по телефону.

Благодаря процедурам автоматического формирования и обновления рабочего словаря, новая технология открывает широкие перспективы работы с любыми базами данных с постоянно изменяющимся содержанием. Это могут быть, например, каталоги Интернет-магазинов, информационные базы контакт-центров, проведение социологических опросов и многое другое. Независимость распознавания речи от индивидуальных особенностей и возраста диктора позволяет применять новую технологию в различных решениях для массовой аудитории.

Ранее редакция THG.ru сообщала, что компания ABBYY представила ABBYY Recognition Server 3.0 - новую версию высокопроизводительного серверного решения для оптического распознавания любых документов и PDF-файлов. Управлять бумажным документооборотом в организации становится еще проще - система работает с изображениями, полученными со сканера, факса, МФУ или выделенной станции сканирования. ABBYY Recognition Server 3.0 легко и быстро превращает их в электронные документы наиболее популярных редактируемых форматов, в том числе DOC, PDF, Word XML и HTML. Готовые файлы могут экспортироваться в СЭД, ERP или электронный архив.