Распознавание речи в медицине: зачем нам это нужно
Системы распознавания речи внедряют и в государственные учреждения. Что дает эта технология медицине и как будет развиваться в ближайшие годы, рассказывает Мария Каряева, технический директор медтех компании MDinc.
В России рынок разговорного ИИ развивается быстрыми темпами. К 2025 году ему предрекают оценку в $561 млн при текущей стоимости в $80 млн. Распознавание речи — это только часть глобального направления, однако, эксперты говорят о его высоком потенциале с ежегодным приростом на 100–120% инвестиций. Это мировая тенденция — 41% всех сервисов распознавания речи обслуживают медицину.
Феномен такого роста в том, что технологические решения, оснащенные функцией распознавания речи, способны на большее, чем привычное нам управление устройством с помощью голосовых команд. Теперь они могут распознавать намерения спикера, вести разговор, поддерживать контекст беседы и подстраиваться под собеседника, что может быть применимо и для медицины.
Что делают сервисы с распознаванием речи в медицине
Развитие ИИ делает голосовых помощников сложнее и умнее. Они не просто переводят аудиозапись в текст, но и анализируют интонацию, произношение, паузы и другие речевые маркеры. Современные решения умеют без специальных фраз составлять клиническую картину. Например, на вопрос «Болит ли голова?» пациент может ответить: «Кажется нет, но вчера — да». Из этого диалога голосовой помощник сделает две пометки для врача: «Сейчас боли нет, а последнюю жалобу зафиксировали вчера».
Примеров использования голосовых помощников много, вот наиболее интересные их функции
- Помогают одиноким, заменяют сиделку
Они задают пациенту вопросы, чтобы определить, не наступил ли рецидив, могут вызвать врача или побеседовать. Что-то подобное делает HealthTap: он анкетирует симптомы, контролирует лечение и дает базовые рекомендации.
- Первично консультируют пациента вместо колл-центра в клинике или страхового агента
Определяют по симптомам заболевание и дают рекомендации (опционально) по базовому способу лечения.
- Диагностируют речевые заболевания
Стартап MDinc может по голосу распознать отклонения и подобрать подходящие упражнения для восстановления речи. Речевая терапия, встроенная в приложение Cerebrum MD и включающая в себя распознавание речи пользователя, отслеживает, насколько правильно пациент делает упражнения, и анализирует его успех. Проект «Спектрограмма» нацелен на детей в возрасте 2–6 лет и работает через чат-бот. Ребенку нужно сказать несколько фраз, и система определит состояние речи.
- Определяют клиническую депрессию
Голосовые помощники проводят регулярные скрининги состояния пациента, что упрощает осмотр для психиатров.
- Записывают и расшифровывают медицинский прием
Такие приложения не просто переводят аудио в текст, они обучены терминам, устанавливают логику в диалоге и корректно записывают информацию. Voice2Med, например, заполняет медицинские карты. Система способна распознавать термины, поэтому качество ее работы может достигать 99,7%.
Как устроен сервис с распознаванием речи для врача
Алгоритмы распознавания речи имеют примерно одинаковую архитектуру. Например, приложение MDinc получает от пользователя аудиосообщение, используя микрофон, который обязательно должен быть включен перед запуском. Далее происходит отделение шума от полезного сигнала, которым и является речь пользователя.
Для обработки речи на вход алгоритму последовательно поступают фреймы, маленькие фрагменты аудиозаписи, из которых извлекаются технические характеристики звука, выраженные в числовом виде. Стоит отметить, что результатом этого шага станет получение фонемы. Для формирования финального результата в виде текста, фонемы преобразуются в слова с определенной долей вероятности, исходя из контекста.
Для точного распознавания голоса требуются огромные коллекции данных, например, аудиозаписи дикторов с начиткой текстов и транскрипций к ним. На основе коллекции происходит сопоставление фрейма фонемы: чем разнообразнее корпус текстов, тем больше вероятность, что распознанные слова превратятся в осознанный текст.
Слова «Тверь» и «Дверь», употребленные без контекста, для обычного человека практически не различимы на слух. Так же сложно сделать выбор в пользу одного из этих слов алгоритму. Для него окружающие слова — ключевой способ с высокой точностью определить, что именно сказал пользователь.
Иногда стартапам бывает трудозатратно самим создавать алгоритмы для качественного распознавания речи. Для этого требуется обеспечить высокую точность распознавания, скорость получения ответов; собрать массивы данных, состоящие из корпусов текстов и коллекций размеченных аудиозаписей; обучить нейронные сети. Кроме того, необходима экспертиза в филологии, лингвистике, обработке сигналов. Выходом может послужить перенос данных ресурсоемких вычислений с устройств пользователей на серверы в облаке, где и происходит распознавание. Приложение, запущенное у пользователя, отправляет туда речевые запросы и получает ответы в виде текста.
Мы в MDinc используем как готовые решения, так и разрабатываем собственные. Дело в том, что перед нами стоит прямо противоположная задача. Обучить систему на обычной речи здорового человека — одно дело, в таком распознавании будут эффективны и стандартные Speech API. Например, сервис Yandex SpeechKit или решение Cloud Speech-to-Text от Google специально пытаются «улучшить» речь пользователя, в случае, если он проглатывает звуки, не выговаривает буквы, делает паузы. Наша ключевая задача — разбираться в нестандартных ситуациях, детектировать все подобные неровности и неточности, чтобы делать из этого выводы о типах нарушений у пользователя.
Важно понимать, что в распознавании речи есть глобально две цели. Первая, которая лежит на поверхности, — перевести аудио в текст, вторая — получить нужную информацию. В медицине все усложняется тем, что нельзя придумать универсальный алгоритм ко всем задачам. Так, алгоритмы для заполнения карточек и для опроса пациента будут разными.
Возможности распознавания речи
Сервисы с распознаванием речи в медицине избавляют врачей от рутины. Еще 10–15 лет назад прием в клинике занимал до получаса из-за заполнения документов. Недавно бумажные карточки заменили компьютеры, но процесс не сильно ускорился. Представьте, что теперь врачу совсем не нужно записывать результат приема, — голосовой помощник сам во время осмотра сможет конспектировать данные.
Голосовые помощники уникальны и тем, что помогают людям с ограниченными возможностями. Есть мнение, что телемедицина с онлайн-приемами — это что-то сложное, дорогое и понятное лишь молодым. Но на самом деле голосовые помощники стали решением для одиноких или лежачих больных, кто не может себе позволить круглосуточную сиделку и плохо знаком с технологиями. Достаточно просто отвечать помощнику и задавать ему вопросы.
Что будет с голосовыми помощниками в будущем
Технология распознавания голоса в медицине — безусловное преимущество как для врачей, так и для пациентов, но сегодня принято считать, что ее точность и качество уступают экспертности настоящих врачей. ИИ в этой сфере часто дает непредсказуемый результат. Тем не менее, игроки технологического рынка стремятся внедрить технологии распознавания речи в нашу жизнь.
Вот несколько направлений, над которыми сейчас активно работают компании:
- Повышение доверия к подобным системам
Вопросы конфиденциальности являются определяющим фактором при внедрении голосовых помощников. Хранение и обработка персональных данных, возможность сделать выводы о здоровье пациента без присутствия человека в этом процессе по степени доверия подобна проведению онлайн-платежей. Кроме того, недоверие к использованию подобных ассистентов вызвано тем, что любая неточность в распознавании воспринимается как риск.
- Удаление шумов
Распознавание речи в помещении без посторонних звуков — идеальный случай для проведения эксперимента. Однако фоновый шум, который практически уже не различим человеку, один из важных факторов, который напрямую влияет на качество распознавания. В современно мире, особенно, во время пандемии, когда несколько человек в одном помещении могут быть заняты своими делами, гул проезжающих машин, перебивающие звуки из рядом расположенных устройств — все это наша обыденная жизнь, где стабильно работающее распознавание речи должно быть не исключительным случаем, а действительностью.
- Разработка распознавания речи для детей
Алгоритмы распознавания речи не разрабатывались для детей. Нюансы детской речи, такие как произношение, высота речи, порой беспорядочное употребление слов в сочетании с неподдающейся никаким правилам грамматики, приводят к тому, что подобные решения для детей должны быть устроены гораздо сложнее.
- Возможность работы без интернета
Уже сейчас активно ведется разработка и проводятся соревнования, например на платформе Kaggle, позволяющие распознавать речь на самих устройствах, без использования интернета. Преимущество данного подхода заключается в эффективном использовании ресурсов при выполнении коротких команд по управлению устройством
Как ни странно, лучший способ быстрее интегрировать помощников речи в нашу жизнь, — чаще их использовать. Такой подход обучит нейронные системы глобальных компаний, на которых работают стартапы, и продвинет вперед тех же помощников в медицине.
Материал подготовлен компанией MDinc