Открытые проблемы в области распознавания речи. Лекция в Яндексе

Комментарии 4

  • 10.09.17 в 20:11

    0

    Вы говорите, что фрейм около 25 мс, а фонема обычно в неск.раз длиннее. При этом получается несколько одинаковых фонем. Было бы логично как-то складывать одинаковые фреймы и получать на выходе один суммарный. Наверняка слух именно так и работает — пока длиться звук с тембром буквы «а» (например, в течении 100 мс) — раздражается какой-то «условный нейрон», который отвечает за букву «а» :). Не знаю, как это математически описать, но может такой алгоритм как-то уже используется? … и потом для такого алгоритма было бы логично делать фреймы поменьше: ведь средняя основная частота голоса у мужчины ~120Гц, а у женщин ~200Гц. Тогда один период будет примерно 5–8 мс.

    • 10.09.17 в 21:31

      0

      Фреймы обычно делают с перекрытием, потому что нужно уловить не только звуки, но и переходы между ними. Длительность всего фрейма 25 мс, перекрытие со следующим 15 мс.
      • 10.09.17 в 22:46

        0

        Да, это я понял. За счет этого, наверное, некое суммирование/усреднение происходит. Но не получается «эффекта резонанса», когда несколько одинаковых фреймов подтверждают один и тот же звук (фонему). Для примера изобразил схематично на рисунке. Внизу мы уже после одного фрейма (который между пиками составляет ~5 мс) можем определить, к примеру, что это звук «у» и каждый следующий только подтверждает.
        А переход на другой звук, наоборот, будет ослаблять нашу текущую фонему (уменьшать вероятность определения как «у»), но он сам по себе не несёт ценной информации… конечно, это совсем другой алгоритм и его надо сначала проверить, прежде чем что-то утверждать :)
        https://imgur.com/a/fXGYM image

  • 10.09.17 в 20:16

    0

    Ещё такой вопрос —, а обрабатывается каким-то образом при распознавании речь с акцентом?
    Например, это может быть либо своеобразный говор, когда некоторые фонемы по-другому произносятся. Либо некоторые слова могут произноситься с ошибками.

Только полноправные пользователи могут оставлять комментарии. Войдите, пожалуйста.

© Habrahabr.ru