Ученые предложили учитывать жестикуляцию в системах распознавания речи
Каждый день появляется все больше систем, работающих на основе искусственного интеллекта. Машины могут писать тексты и рисовать, но до сих пор существует проблема точного распознавания слов человека. Речь идет не о сухих командах и простых словах, а сложных эмоциональных монологах
Авторы исследования отмечают, что их результаты согласовываются с тем, что многие политики очень часто делают резкие движения, чтобы подчеркнуть слова в своих речах. Конечно, люди делают это неосознанно, однако это действительно работает.
В ходе своей работы ученые предложили 13 добровольцам изучить видеозаписи, на которых было скрыто лицо человека, но было слышно, что он говорит, а также было видно его жестикуляцию. Как оказалось, люди обращали особое внимание на жесты «ритма», которые ставят условные ударения на определенные слоги слов и сильно влияют на понимание речи. Добровольцы также сообщили, что именно жесты заострили их внимание на определенных моментах, которые в итоге слушатели запомнили лучше всего.
Жесты не только выделяют отдельные слова в устной речи, но могут влиять на сам звук, например, некоторые гласные могут казаться длиннее, звонче, а также они могут становиться более эмоциональными (агрессивными, или мягкими), что только подчеркивает важность сказанного, выбиваясь из общего строя.
По мнению ученых, их исследование может повлиять на будущее развитие систем распознавания речи. Дело в том, что когда человек говорит особенно эмоционально, его речь соединяет в себе сразу несколько систем. На данный момент современные технологии не могут улавливать мультимодальную просодию (просодия — аспекты звука, то есть тон, интонация, темп, а мультимодальность — теория коммуникации, рассматривающая передачу смысла сразу же несколькими различными способами (модусами). Мультимодальная просодия — передача смысла звуком, на который оказывают влияния различные модусы, например, жестикуляция), что может сильно сказаться на трактовке сказанного.