Теперь ИИ распознает ваш голос даже в шумной толпе

fd1514296fff579dd3e8b6f855473754_ce_800x

Теперь ИИ может отделять друг от друга голоса множества одновременно говорящих людей в реальном времени. Это придаст автоматическому распознаванию речи значительное развитие, и вскоре такие системы могут быть и в лифте на вашей работе.

Технология, разработанная исследователями из Лаборатории электрических исследований Мицубиси в Кембридже, Массачусетс, и впервые была продемонстрирована в этом месяце в Токио.

  • Технологии

    Ка-62: новый российский вертолёт

  • Технологии

    Новый «кукурузник»: построит ли Россия биплан XXI века

Она использует технику машинного обучения под названием «глубокое аггрегирование» для определения уникальных черт в «отпечатке голоса» различных людей. Затем она группирует различные черты каждого говорящего вместе, что позволяет различить отдельные голоса друг от друга в точности реконструировать, что говорит каждый человек. Систему тренировали на 100 англоговорящих людях, но она разделяла голоса, даже если требуемый человек говорил по‑японски.

Система может разделить и реконструировать речь двух человек, говорящих в один микрофон с 90% точностью. С тремя говорящими точность понижается до 80%. И в том, и в другом случае система никогда раньше не слышала людей, которых анализировала.

В предварительных испытаниях такой ИИ различал до пяти голосов одновременно, и это может быть использовано как в домашних системах, так и в системах автоматического распознавания\голоса.

©  Популярная Механика