Telegram-бот для распознавания COVID-19 по голосу будет размещен в облаке Serverspace28.06.2023 12:17

Студент 3 курса Университета ИТМО, Владимир Шилоносов, учащийся по направлению Нейротехнологии и программная инженерия, разрабатывает новую систему распознавания COVID-19 на основе анализа звуковых данных. Программа использует такие признаки, как уровень громкости или диапазон высоты звука, чтобы обнаружить COVID-19. Точность предсказания 91,7%.

О проекте

Идея проекта системы распознавания COVID по голосу основана на применении методов классического машинного обучения и выборе лучшего из них. Для определения подходящего подхода использовались такие методы классического ML, как метод k-ближайших соседей, логистическая регрессия, метод случайного леса, а также дерево принятия решений. С помощью k-fold cross-validation было проведено обучение всех моделей с разными параметрами и проверена их точность на валидационных данных. Это позволило выбрать модель с лучшими параметрами — дерево принятия решений, который в итоге дал наилучшую точность.

«Подход заключается в том, что я брал dataset с аудиоданными и вычленял оттуда признаки. Потом использовал только наиболее значимые и некоррелирующие из них. Затем модель обучалась на этих признаках», — говорит Владимир Шилоносов, автор проекта, студент Университета ИТМО.

На основе анализа данных, Владимир определил важные признаки для своего проекта, которые описывают аспекты звуковых колебаний, включая высоту звука, уровень громкости, наклон и спектральные характеристики. Используя их, модель обучается предсказывать вероятность наличия COVID-19 у человека на основе звукового сигнала.

Признаки

Модель системы берет различные признаки и задает ряд вопросов, чтобы классифицировать голосовые данные пользователя как здоровые или инфицированные COVID-19. Вот несколько признаков, которые используются в системе:

F0semitoneFrom27.5Hz_sma3nz_pctlrange0–2: Описывает диапазон высоты звука в полутонах в диапазоне 0–2% от общего диапазона.
loudness_sma3_meanFallingSlope: Описывает средний уровень громкости звука и его падение со временем.
mfcc1V_sma3nz_stddevNorm: Описывает изменение первого коэффициента мел-частотных кепстральных коэффициентов (MFCC) со временем.
F0semitoneFrom27.5Hz_sma3nz_percentile80.0: Описывает 80-й процентиль диапазона высоты звука в полутонах.
slopeV0–500_sma3nz_amean: Описывает среднее значение наклона звука в диапазоне частот от 0 до 500 Гц.

Дальнейшие планы

В настоящее время тестирование системы проводится на основе тренировочных и тестовых данных. Однако в планах Владимира — провести дополнительные исследования и тестирование на реальных людях совместно с медицинскими учреждениями.

Владимир продолжает работать над развитием своего проекта и стремится сделать его доступным для общества. В рамках практического применения разработанной технологии, Владимир планирует запустить Telegram-бота, который будет хоститься на облачных серверах провайдера Serverspace. Пользователи смогут отправлять голосовые аудиофайлы боту и получать предсказания в формате 0 или 1, где 0 означает, что человек здоров, а 1 — указывает на возможное заболевание COVID-19.

Подробнее о том, как работает проект, какие признаки используются и чем вдохновлялся автор при создании системы, Владимир рассказал в статье «Система распознавания COVID-19 по голосовым признакам».