«Системы речевых коммуникаций»: создана новейшая технология автоматического распознавания речи

Инновационное предприятие «Системы речевых коммуникаций» объявило о коммерческой доступности новейшей технологии автоматизированного распознавания речи. Это итог многолетней работы коллектива ученых Нижегородского государственного лингвистического университета.

Системы речевых коммуникаций

В основе технологии лежит новый метод фонетического декодирования слов, позволивший добиться значительных преимуществ по сравнению с существующими решениями в области распознавания речи. Вот некоторые из ключевых особенностей новой разработки:
  • Работа в режиме реального времени со словарем в несколько тысяч слов.
  • Минимальная потребность в вычислительных ресурсах. Для словаря объемом в 1000 слов выигрыш составляет более 200 раз по сравнению с аналогами.
  • Автоматическая процедура формирования и обновления рабочего фонетического словаря из тематического письменного текста произвольного объема. Для пополнения словаря на 1000 слов достаточно всего 3 минут!
  • Возможность выбора национального языка из широкого списка.
  • Независимость распознавания речи от индивидуальных особенностей и возраста диктора.
  • Наибольшей проблемой для всех известных технологий автоматического распознавания речи является формирования рабочего словаря. Добавление или изменение в рабочем словаре даже одной позиции превращается в сложную и трудоемкую процедуру. Технология, разработанная нижегородскими учеными обеспечивает рост эффективности на несколько порядков!

    «Покажите характеристики нашей технологии любому специалисту в области распознавания речи, и он вам скажет, что это невозможно, - говорит руководитель коллектива разработчиков, доктор технических наук, профессор Владимир Савченко. - Никто до нас не реализовал процедуру автоматического формирования звукового рабочего словаря из письменного текста, поскольку хорошо известно, что устная и письменная речь - это, по сути, два разных языка. Мы в своем проекте достигли невозможного, и этим все сказано!»

    Представленная технология может быть использована в широком спектре приложений. Вот некоторые примеры:
  • Голосовой поиск информации в тематических базах данных через Интернет и телефонные сети
  • Системы голосового управления
  • Информационно-справочные службы с автоматической обработкой запросов по телефону
  • Системы автоматических секретарей и системы автоматического речевого перевода
  • Интернет-магазины и торговые системы заказов по телефону.
  • Благодаря процедурам автоматического формирования и обновления рабочего словаря, новая технология открывает широкие перспективы работы с любыми базами данных с постоянно изменяющимся содержанием. Это могут быть, например, каталоги Интернет-магазинов, информационные базы контакт-центров, проведение социологических опросов и многое другое. Независимость распознавания речи от индивидуальных особенностей и возраста диктора позволяет применять новую технологию в различных решениях для массовой аудитории.

    Ранее редакция THG.ru сообщала, что компания ABBYY представила ABBYY Recognition Server 3.0 - новую версию высокопроизводительного серверного решения для оптического распознавания любых документов и PDF-файлов. Управлять бумажным документооборотом в организации становится еще проще - система работает с изображениями, полученными со сканера, факса, МФУ или выделенной станции сканирования. ABBYY Recognition Server 3.0 легко и быстро превращает их в электронные документы наиболее популярных редактируемых форматов, в том числе DOC, PDF, Word XML и HTML. Готовые файлы могут экспортироваться в СЭД, ERP или электронный архив.

    ©  Tom's Hardware