Разговор с Дмитрием Одинцовым из «Труконф» об интеллектуальном шумодаве в ВКС, дипфейках и голографических конференциях

Информационная служба Хабра побывала на конференции «Демодень». Мероприятие было посвящено презентации результатов и целей российского разработчика ВКС‑решений «Труконф». На конференции мне удалось поговорить с директором по развитию компании «Труконф» Дмитрием Одинцовым. Наш разговор был об использовании ИИ и нейросетей в ВКС, голографической коробке, представленной компанией в феврале 2024 года, дипфейках и о том, насколько удобны Apple Vision Pro для использования в видеосвязи. Приятного чтения!

3f35dbfbc6065a4e491d2e786a6a8a97.jpeg

Вы в своих продуктах используете искусственный интеллект или нейросеть? Эта нейросеть open source решение? Не могли бы вы рассказать поподробнее о ней?

Мы стараемся не использовать open‑source в своих решениях, а если и используем, то меняем почти всё. Нейросети сами по себе не имеют смысла без датасетов, в нашем случае датасеты — это именно то, чем гордимся. Например, AI для шумоподавления мы обучаем больше двух лет.

А не могли бы поподробнее рассказать о том, как сами датасеты создавались, что за модель используете?

К сожалению, это почти всё коммерческая тайна. Однако я могу рассказать, как мы интегрировали в приложения интеллектуальное шумоподавление. Мы хотели убрать из видеоконференций всевозможные шумы, например технологические звуки: дрели, станки, машины и так далее. После серьёзных исследований мы поняли, что неправильно учили нашу нейросеть. И решили изменить вектор обучения: Мы начали учить её не шумам, а речи. Записывали людей, создавали библиотеку‑датасет человеческих голосов, в том числе использовали разговорную лексику, жаргон и трудновыговариваемые слова. Даже внешних пользователей привлекали. В итоге у нас получилось сделать нейросеть, убирающую всё, что она не считает голосом. В результате она вырезает посторонние шумы прямо из потока в режиме реального времени и при этом не сильно тратит ресурсы.

Как раз это было на конференции, где была демонстрация работы интеллектуального шумоподавления, когда заводился трактор рядом с рабочим местом и при включении функции оставался только голос. Это была постановка?

Нет, тогда это был прямой эфир, всегда можно проверить этот шумодав: достаточно скачать бесплатную версию для тестов и воспользоваться самостоятельно. Кроме того, трансляция проходила в рамках национальной премии «Приоритет».

Я общался со специалистами, использующими ваше решение, и они жаловались на плохой звук в наушниках, даже если это очень дорогие и хорошие наушники. В связи с этим вопрос: в том видео, возможно,  была какая‑то экспериментальная версия вашего решения?

Нет,  была стандартная версия. И в том видео не было никакой специальной или экспериментальной версии. Стандартная версия для всех. Вопрос звука — это самое важное на самом деле в видеоконференциях, и, к сожалению, наличие хороших наушников не имеет никакого значения, потому что ваша конечная ситуация представляет собой хороший красивый монитор, хорошая звуковую систему для воспроизведения звука, но на выходе. Однако стоит задуматься, что было на входе? На этой стороне мог быть плохой канал интернета, устройство с плохим микрофоном, какие‑то ещё проблемы. И, к сожалению, такие вещи люди просто не замечают. Например, ставят руководителю очень крутую камеру, крутой дисплей и очень крутое звуковое оборудование. И никто не задумывается, что на этом крутом дисплее будет отображаться видео с жуткой камерой, которая встроена в старый ноутбук. Встроенный микрофон в этом ноутбуке, самый простой. Да ещё и передача происходит через мобильный интернет в нелучшей зоне приёма. И результат предсказуем: кошмарное аудио и видео, которое передаётся по ужасным каналам. Но при этом все винят ПО. В таких условиях ни один производитель ничего не сможет сделать. Однако если взять более‑менее нормальный микрофон, более‑менее камеру, стабильный канал связи, то качество видеоконференции точно улучшится. Ещё нужно не забывать про ограничения. Их может глобально задать администратор ВКС‑системы, чтобы экономить сетевой трафик, также ограничения регулируются в клиентских приложениях на всех ОС.

Что касается канала, то если Firewall режет жёстко всё подряд, это ухудшит качество видеоконференции. Но если у вас более‑менее стабильный канал, даже мобильный, то как минимум звук будет нормальный. Под звук нужна не очень широкая полоса: стабильные 20 кб/с. Потому что если во время видеосеанса у вас поплывет канал, и даже появится серьёзный джиттер, вы, может, этого и не заметите, а в звуке слышно это всегда.

Если проблемы происходят внутри одной сети, возможно, это может быть связано с недонастроенным сервером?

Это связано скорее с тем, в какой инфраструктуре развёрнут ВКС‑сервер Если эта инфраструктура плохая, некачественно настроенная, с потерями, с ошибками, с системными лупами и так далее, в такой инфраструктуре будут проблемы не только с видеоконференциями, проблемы будут с другими сервисами. Однако оговорюсь: видеосвязь — это высоконагрузочная история на сеть, и очень часто бывает, что заказчик уверен, что его сеть великолепна. Но как только начинается серьёзная нагрузка, вылезают проблемы.

В начале 2024 года я писал новость, что в Америке на выставке CES компания Holoconnects представила решение на стыке технологий голографических проекций и искусственного интеллекта под названием Holobox. Ваша служба первой со мной связалась и сказала, что у вашей компании тоже есть такая разработка. И вот у меня возник вопрос:, а это совпадение или уже есть рынок таких решений? Расскажите подробнее об этом.

Решение «Труконф» и Eyefeelit 

Решение «Труконф» и Eyefeelit 

Решение Holoconnects

Решение Holoconnects

Совпадение. Вообще, в Израиле такая штука применяется уже год. У многих людей есть большое желание получить какую‑то хитрую трёхмерную технологию общения, как в «Звёздных войнах». Мы много лет экспериментировали со стереовидеосвязью. Это отображение на стереодисплеях, тогда они были доступны. Сейчас их уже нет, и технология не пошла, потому что просто не на чем отображать. Это же касается мультиракурсных мониторов без 3D очков. Эта технология тоже умерла, по сути. Снять видео стереокамерой мы можем, а отобразить на чём‑то — нет. Было несколько историй с отображением на вентиляторах, на воде, на пару и так далее. Но это всё не отображение в режиме реального времени. Во всех этих историях видео должно быть специальным образом подготовлено, поэтому в режиме реального времени не отобразишь.

Однако тяга людей к технологиям из научной фантастики с 3D ВКС всё равно велика. И вот наши израильские партнёры сделали внешне похожее решение, в основном для выставок.

Но это просто решение на основе прозрачных дисплеев. Это, конечно, не 3D, как в тех же «Звёздных войнах». Благодаря мониторам, когда фон у вас прозрачный, а картинка с правильной подсветкой, правильным выбором угла съёмки камерой даёт иллюзию, что в коробке сидит человек. Правда, использовать это в видеосвязи напрямую достаточно проблематично, потому что человеку нужно снимать на белом фоне, со специальным освещением, чтобы был эффект полного присутствия. Но раз мы, не сговариваясь с Holoconnects, выпустили похожие решения, это некий первый звоночек о создании хитрых переговорных или ВКС‑решений, позволяющих геораcпределённым компаниям приблизить людей из разных мест и сделать больше иллюзию совместного нахождения в одном пространстве и более живого общения.

Есть голографические стулья, где вместо спинки стула можно можно было бы увидеть собеседников, но там технология вентилятора, поэтому я сомневаюсь, будет ли это возможно в реалтайме. Да и качество будет очень низкое. Ну и сама идея не нова,  был человек, который сделал кресло с закрепленным голографическим вентилятором, но эта конструкция очень шумит. Поэтому идея пока без таких решений.

А из России поступали запросы на эти голографические коробки? Есть у вас решения в ¼ от полноразмерной коробки?

Да, из России запросы поступили. Как только новости появились. При этом надо понимать, люди (не только в РФ) хотят сильно больше, чем сама технология может позволить. Все хотят «Вот я сижу за столом, пусть меня будет видно красиво в этой коробке». К сожалению, так не получится. Тем не менее, мы уже готовим версию для российского рынка и скоро сможем ее представить. Компактные версии HoloLive также уже существуют.

Возможно ли добиться такого эффекта с помощью нескольких камер, расставленных по кругу?

Здесь всё упирается в старую проблему. Когда мы занимались 3D‑видеосвязью, для просмотра стереоскопии нужны очки. Как только вы надеваете очки, все вы сразу выглядите не очень презентабельно, а людям с другой стороны некомфортно с вами общаться. В этом главная фишка, а в офисах что‑то надеть на человека — это проблема. С голографической коробкой такая же история. Вы начинаете усложнять место съёмки, но это будет некомфортно. Один человек будет хорошо всем виден, но как будет всех остальных видеть? Это значит, каждому по такому месту надо или если это переговорная, то там тоже не получится эффект нормального отображения. Само решение должно быть симметрично и просто в использовании, чтобы не городить кучу оборудования вокруг. Сейчас есть проекты у Google и Logitech в кабинке, что‑то похожее сделано. Но так реализована схема «точка‑точка», и надо посмотреть, насколько это всё протянет.

Сейчас за счёт ИИ дипфейки очень сильно продвинулись вперёд. Людей и видео начали подделывать, особенно в видеозвонках. Обращались ли компании с просьбой сделать распознавание дипфейков в ваших продуктах?

Это известная проблема меча и щита. Технологии создания дипфейка и его распознания — это технологии, постоянно опережающие друг друга. Насколько я понимаю, пока опережают технологии создания дипфейков.

Распознание дипфейков — это немножко не наша область. Как только эта технология более‑менее будет отработана и понятна, появится API к этим системам, то мы с удовольствием это всё делаем, всё интегрируем. Это классная вещь и было бы интересно этим заниматься, но при наличии высокого спроса на данную технологию, а еще потребуются дополнительные инвестиции. Ну и ИБ‑компании явно больше специализируются на распознавании дипфейков, а мы не занимаемся безопасностью. Мы бы с удовольствием купили готовое решение для распознавания. Поэтому мы ждём коммерческих продуктов, которые сможем интегрировать к себе.

Сами кибератаки с помощью дипфейков больше связаны с публичными сервисами, а не с внутренними корпоративными. Основная проблема не в передаче своего дипфейка, это не так сложно. Вопрос следующий:, а как попасть, если мы используем внутренний корпоративный мессенджер; для того чтобы передать видео, ведь нужен логин, пароль, авторизация. И тут уже вступает в дело информационная безопасность. Повторюсь, это точно не про нас. Да и есть многофакторная авторизация, её сложнее пройти. Поэтому проблема дипфейков в корпоративном сегменте не так сильно распространена, как проблема первичного проникновения. Есть, правда, оговорка, если корпоративный сегмент не использует публичные сервисы. Тут уже проблема стоит острее, в тот же Zoom или Google Meets можно подключиться без авторизации. И конечно, легко прислать ссылку с фейкового адреса и представить дипфейк директора компании. Однако и тут расчёт на фишинг, социальную инженерию и отсутствие многофакторной аутентификации. Роль самого дипфейка мала, хоть он и даёт дополнительный профит в киберпреступлении.

Перейдём к другой технологии, создавшей в последнее время ажиотаж. Вопрос по поводу Apple Vision: вы что‑то сейчас под них разрабатываете, что‑то тестируете, например ВКС в каком‑то виде?

Определённая работа, конечно, ведётся. Буквально несколько дней назад мы адаптировали клиент под Apple Vision Pro — его можно установить на очки из AppStore. Доступны все привычные функции. Видеоконференции в Дюне (Аракис) или на Луне, конечно, выглядят фантастически, но стоимость девайса не позволит применять его для коммуникаций повсеместно. Мы ждём технологий, нормально снимающих лицо человека с надетыми 3D-очками.  Да и в целом за что мы любим видеоконференции? Мы видим лицо, мы видим глаза, мы видим эмоции, есть определённый эффект присутствия. Все эти очки помогают погрузиться вам, но для собеседников вы — неестественный аватар, что печалит.

Да, есть технологии создания макета лица, датчики это определяют хорошо, но всё равно не на должном уровне. Например, у Nvidia есть классная технология, которая позволяет наложить вам глаза, если смотрите не в камеру. Но любой поворот головы или неправильный наклон — глаза накладываются на лоб, на нос. Если говорить про виртуальные миры и перенос своего аватара — это прекрасно и в каких‑то онлайн‑конференциях неплохо, но, честно говоря, к видеосвязи имеет опосредованное отношение

Проблема Apple Vision, Oculus и прочих таких очков в том, что нет обратной связи. Они работают все в одну сторону. Есть технологии дополненной реальности с возможностью обратной связи, но это тоже не ВКС, а контроль выполнения определённых задач. Просто он менее затратен, чем отправлять специалиста куда‑то далеко. В этом случае очки работают как крутое видеонаблюдение.

Из нашего разговора я понял две вещи: хоть ВКС‑решения сейчас и на отличном уровне, 3D‑голограммы нам пока для общения недоступны, и для ВКС устройство, надетое на голову, — не лучшее решение. Ну что же, подождём, когда голографические вентиляторы выйдут на достаточно хороший уровень демонстрации и появятся сканирующие камеры для хорошего уровня передачи изображения. Ну или мы увидим создание какой‑то новой технологии приёма‑передачи голографических изображений.

© Habrahabr.ru