В МТИ создали компьютерную модель, которая умеет определять источник звука30.01.2022 18:16

Нейробиологи Массачусетского технологического института разработали компьютерную модель, которая может определять источники звуков. Модель включает несколько сверточных нейронных сетей и способна обнаружить происхождение звуков в реальных условиях подобно человеческому уху.

Человеческий мозг определяет направление, сравнивая звуки, которые достигают правого и левого уха. Эта задача заметно усложняется в реальных условиях — когда окружающая среда создает эхо и слышно много звуков одновременно.

Ученые давно пытались построить компьютерные модели, которые могли бы выполнять такие же вычисления, которые мозг использует для локализации звуков. Эти модели иногда хорошо работали в идеальных условиях без фонового шума, но не в реальных условиях.

Команда Массачусетского технологического института обратилась к сверточным нейронным сетям. Они уже широко используются для моделирования зрительной системы человека.

Сверточные нейронные сети могут быть разработаны с использованием множества различных архитектур, поэтому, чтобы помочь им найти те, которые лучше всего подходят для локализации, команда использовала суперкомпьютер, который позволил обучить и протестировать около 1500 различных моделей. Исследователи выявили 10 моделей, которые казались наиболее подходящими для локализации, а затем дополнительно обучили их.

Для обучения моделей исследователи создали виртуальный мир, в котором они могут контролировать размер комнаты и отражающие свойства стен комнаты. Все звуки, подаваемые на модели, исходили откуда-то из одной из этих виртуальных комнат. Набор из более чем 400 обучающих звуков включал в себя человеческие голоса, звуки животных, машин, такие как автомобильные двигатели, и естественные звуки, такие как гром.

Исследователи также обеспечили запуск модели с той же информацией, что поступает в человеческие уши. Наружное ухо, или ушная раковина, имеет множество складок, которые отражают звук, изменяя частоты, и эти отражения различаются в зависимости от того, откуда исходит звук. Исследователи смоделировали этот эффект, пропустив каждый звук через специальную математическую функцию, прежде чем он попал в компьютерную модель.

После обучения моделей исследователи протестировали их в реальных условиях. Они разместили манекен с микрофонами в ушах в реальной комнате и воспроизвели звуки с разных направлений, а затем передали эти записи моделям. Модель смогла локализовать звуки в реальном мире.

Затем исследователи подвергли модели серии тестов, которые ученые использовали в прошлом для изучения способностей человека к локализации.

Они также подтвердили утверждение о том, что человеческий мозг основывает свои суждения о местонахождении звука на различиях в интенсивности сигналов, достигающих каждого уха. Команда Массачусетского технологического института обнаружила, что модель показала ту же чувствительность к частоте.

«Похоже, она использует синхронизацию и разницу уровней между двумя ушами так же, как это делают люди, и это зависит от частоты звука», — отметили исследователи.

В МТИ также показали, что усложняли задачи локализации, добавляя несколько источников звука, воспроизводимых одновременно, а производительность компьютерных моделей при этом снижалась таким образом, что имитировала человеческие неудачи.

Исследователи пришли к выводу, что люди ограничены возможностью одновременно локализовать около трех источников звука, и модель показала тот же результат.

Поскольку команда использовала виртуальный мир, она также смогла изучить, что происходит, когда модель учится локализоваться в различных типах неестественных условий. Исследователи обучили один набор моделей в виртуальном мире без эха, а другой — в мире, где никогда не было слышно более одного звука за раз. В третьем случае модели подвергались воздействию только звуков с узким частотным диапазоном, а не естественных звуков.

Когда модели, обученные в этих неестественных мирах, оценивались с помощью одного и того же набора поведенческих тестов, они отклонялись от человеческого поведения, и способы, которыми они терпели неудачу, различались в зависимости от типа обучающей среды. Эти результаты подтверждают идею о том, что способности человеческого мозга к локализации адаптированы к среде, в которой развивались люди.

В настоящее время исследователи применяют этот тип моделирования к другим аспектам слуха, таким как восприятие высоты тона и распознавание речи, и считают, что его также можно использовать для понимания других когнитивных явлений, например, ограничений внимательности и запоминания.

Ранее исследователи из Университета Гвельфа в Онтарио разработали и обучили «гиперсеть», которая может ускорить процесс обучения других нейросетей. Она предсказывает параметры новой нейросети за доли секунды, и теоретически может сделать ее обучение ненужным, создавая чрезвычайно сложные модели глубоких нейронных сетей.