Голосовых помощников научили понимать направление речи12.11.2020 18:18

Американские инженеры разработали алгоритм, позволяющий»умным» устройствам с голосовыми помощниками понимать, что человек обращается именно к ним.

Технология позволит обойтись без набивших оскомину фраз типа «Окей, Google» или «Привет, Siri»

Голосовые помощники в «умных» колонках, смартфонах и других девайсах, как правило, постоянно слушают «эфир», ожидая услышать ключевое слово для активации. После его произнесения они готовы выполнять голосовые команды, но инженеры пытаются найти способ, который бы упростил взаимодействие с голосовыми помощниками, особенно если их несколько. Американские учёные из университета Карнеги-Меллона предложили для этого метод, который позволяет определять направление речи человека при помощи микрофонов.

Принцип работы алгоритма основан на двух особенностях распространения звука при речи. Главная из них заключается в том, что звуки разных частот по‑разному распределяются вокруг рта: высокочастотная часть сконцентрирована перед ртом, а по мере удаления снижается. Низкочастотные звуки распределены более равномерно. Таким образом, в записанном микрофоном звуке соотношение низких и высоких частот отличается в зависимости от направления источника звука.

Инженеры использовали это для расчёта направления речи. Алгоритм отдельно рассчитывает мощность колебаний с частотой до семи килогерц и выше, затем проводит быстрое преобразование Фурье и по соотношению мощностей двух диапазонов определяет угол к микрофону, под которым была произнесена речь. Вторая особенность, которую использовали разработчики, заключается в том, что при разговоре в помещении возникает небольшое эхо.

Если человек повёрнут к микрофону, то первый сигнал будет чётким, а за ним могут появиться намного более слабые по интенсивности и чёткости повторения. Если человек повёрнут в другую сторону, то все колебания будут дублироваться и искажаться. Алгоритм анализирует форму сигнала в первые 10 миллисекунд после начала речи и вычисляет величину наибольшего пика интенсивности звука, сравнивает её со средним от остальных пиков за этот временной промежуток и определяет, куда был повёрнут человек.

Алгоритм обучили на записях под разным углом и с разного расстояния. В результате точность определения направления речи достигла 90%. Если алгоритм обучен на конкретном помещении, точность повышается уже до 93%. Учёные отмечают, что это ниже, чем точность, которую пользователи ожидают от штатных функций серийных голосовых помощников, но всё же выше, чем у разработанных ранее методов.