Нижегородские ученые налаживают контакт с искусственным интеллектом
Исследователи из нижегородского филиала Высшей школы экономики создали систему, которая распознает эмоции в человеческой речи. Нейронная сеть пока только учится, но в дальнейшем такая технология может существенно сократить «пропасть в понимании» между человеком и компьютером.
Исследователи работают с искусственно созданным интеллектом — нейронной сетью. Она представляет собой математическую модель, построенную по принципу работы сетей нервных клеток живого организма. Чтобы обучить ее распознавать эмоции в человеческой речи, ученые воспользовались аудиозаписями.
Звуки человеческого голоса превратили в изображения, похожие на карты медицинской диагностики или данные тепловизора. Это объемные диаграммы, сформированные в двух цветах: зеленом и красном.
«Чем краснее цвет, тем больше энергии, тем больше громкость была. Например, мы видим, что «злой» и «счастливый» — они наиболее красные, то есть это наиболее сильные эмоции, значит, там больше энергии, чего мы не видим, например, в нейтральной или спокойной эмоции, или напуганной», — рассказывает один из разработчиков Александр Рассадин.
Нейронной сети давали «слушать» 1000 аудиофайлов, в которых 24 человека (носители английского языка) произносили фразы с разной эмоциональной экспрессией. «У нас было восемь эмоций: счастье, злость, нейтральные эмоции, спокойные эмоции, удивление, грусть, испуг и отвращение. <…> Наша программа распознает их с точностью 71%», — рассказывает автор работы Анастасия Попова.
Звуки в микрофоне создают электрические колебания, которые помогают математически преобразовать звук в изображение — мел-спектрограмму. По спектрограмме звука музыканты могут сделать определенные выводы о музыке, для этого им не обязательно ее слушать. То же самое может делать разработанная программа с эмоциями.
Нейронная сеть в процессе обучения ищет закономерности в изображениях, отмеченных одинаковыми эмоциями, формирует внутреннее представление каждой эмоции. Пока программа успешно различает нейтральные и спокойные интонации, а хуже всего распознает счастье и удивление: счастье часто путает со страхом и печалью, а удивление — с отвращением. Отдельная задача для ученых — понять, каким именно закономерностям обучилась нейронная сеть.
«Достичь точности распознавания 100%, скорее всего, невозможно. Скорее, мы хотим эту программу обучать на более расширенных данных, чтобы она была более компетентна, чтобы могла распознать любую запись на любом языке, не обязательно на английском, не обязательно эту фразу — разные фразы. <…> И мы хотим, чтобы это от языка не зависело. Нам же не важно, на каком языке говорит человек, чтобы понять его психологическое состояние. Мы хотим этого добиться от нашей программы», — говорит Анастасия Попова.
Пока исследователи даже не думали о коммерциализации своего проекта. Для них это только начало большой работы, которая сделает более интерактивным общение человека и компьютера. Речь идет о том, что техника сможет понимать своего владельца вплоть до его психологического состояния и принимать какие-то меры при необходимости.
«Создание такого инструмента закрывает какую-то пропасть в общении между компьютером и человеком. Если компьютер научится распознавать человеческие эмоции, то все приложения, которые есть на текущий момент, сразу на голову становятся интеллектуальнее. Есть же какие-то голосовые помощники, и сейчас они лишены эмоций. Как только они будут ими наделены, то они могут быть гораздо более эффективными», — говорит Александр Рассадин.
Ученые предполагают, что программа распознавания эмоций в речи может быть применима и в медицине, и в работе разных колл-центров, в робототехнике. Эта система может решить проблемы в создании «умного дома».