Следи за моими плечами: разработчики создали алгоритм, распознающий напечатанный текст по видео
Читать можно не только по губам во время разговора, но и по рукам, порхающим над клавиатурой. Так, по движениям рук, замеченным злоумышленниками по видеозвонку, можно разгадать пароли и кодовые слова, набранные на традиционной QWERTY-клавиатуре.
Американские разработчики создали особый алгоритм, способный считывать движения контуров плеч и рук пользователя, набирающего текст на клавиатуре, анализировать их и сопоставлять с вводимыми символами. Далее ИИ готовит список из вероятно набранных букв и цифр, что позволяет, например, восстанавливать символы, набираемые в ходе авторизации. И все это — практически в режиме реального времени, во время видеоконференции.
Существует способ определения набранных символов на клавиатуре по звуку нажатия клавиш. Для этого требуется доступ к целевому ПК. Метод, однако, неточный, поскольку естественные шумы сильно мешают восприятию и анализу. К тому же акустический криптоанализ не работает для клавиатур с низкоамплитудным нажатием клавиш.
Придуманный разработчиками из Техасского университета в Сан-Антонио алгоритм учитывает скорость печати, порядок использования рук, следит за их перемещением и подсчитывает вероятное количество букв в слове. В арсенале приложения — словарь из наиболее популярных слов, используемых в качестве паролей. По мнению исследователей, видеосигнал менее подвержен искажениям, чем аудио.
Алгоритм анализа и расшифровки видео работает по следующей схеме:
- Удаляется фон вокруг собеседника.
- Изображение переводится в серые тона.
- Для подготовки к следующему этапу распознается и размечается лицо.
- Определяется положение рук и очерчивается их контур.
- Руки сегментируются на две условные части: до плечевого сустава и после.
- Далее алгоритм считывает вектор смещения контуров рук на двух соседних кадрах.
Исходя из полученных аналитических данных, подбираются варианты набранных слов из словаря.
Так ли страшен алгоритм
Исследователи протестировали алгоритм в разных условиях.В одном случае они использовали словарь в 65 тыс. самых популярных слов и выдавали в подборке 50 наиболее вероятных. Точность зависела от используемых веб-платформ. Точнее всего предсказывались слова, вводимые в Skype. В идентичных условиях это оказалось на 3,4% точнее, чем в Zoom и на 8%, чем в Hangouts.
В другом случае взяли словарь из 4 тыс. слов. Но тогда 75% введенных слов были в списке из 200 наиболее вероятных слов.
Интересный нюанс: работа алгоритма сильно зависит от одежды испытуемых. Так, люди с оголенными руками более подвержены атаке. Точность распознавания введенных символов, когда участники эксперимента были в одежде без рукавов, составила 81,7%, против 74,4% и 73% точности при длинных и коротких рукавах соответственно.
На стиль ввода и точность распознавания влияет тип клавиатуры, расстояние между клавишами. Но, как обнаружилось, это не столь существенно для точности. Клавиатура Logitech значительно больше, чем Anker, но точность определения получилась почти идентичная.
Помимо испытаний в лабораторных условиях, разработчики наблюдали за 10 участниками в типичной для них домашней обстановке: семью мужчинами и тремя женщинами. У всех участников примерно одинаковая скорость печати — 3,7 нажатий в секунду, а точность в отношении ошибок — 86,7%. Для чистоты эксперимента было введено ряд ограничивающих условий: длительность звонка в 30 минут, рекомендуемые десятиминутные активности за ПК и пр.
По итогам эксперимента выяснилось, что в домашних условиях не все использовали положение камер, аналогичное лабораторным условиям. Кроме того, иное разрешение веб-камер влияло на точность выдаваемой алгоритмом информации. В одном случае волосы и вовсе закрыли зону предплечья, лишив алгоритм возможности проводить анализ. Так что в целом, защититься не так и сложно.