Машинное обучение и медицина: Как выявление курильщика по кардиограмме поможет в диагностике болезней

1aa31a766e4b4f559e4daf47deaae31f.png

В настоящее время болезни сердца занимают существенную долю в печальной статистике смертности во всем мире. По различным данным, среди всех причин смерти внезапная кардиальная смерть составляет около 10%. Внезапная сердечная смерть (ВСС) составляет 15–20% всех ненасильственных случаев смерти среди жителей промышленно развитых стран. Эта печальная статистика имеет тенденцию к увеличению, по многим причинам.

Заболевания сердца — страшная проблема, однако борьба с ними может помочь справляться и с другими недугами. Как показывают исследования, анализ данных из большого массива регулярно снятых ЭКГ может помочь при определении деструктивных трендов и заболеваний других внутренних и органов человека.

О чем говорит кардиограмма


Существуют также и исследования специалистов по машинному обучению, которые показывают, что ЭКГ-сигнал несет в себе информацию о функционировании всех систем организма, а не только сердца. При этом каждое заболевание по-своему «модулирует» ЭКГ-сигнал, а значит знаки приращений интервалов и амплитуд последовательных кардиоциклов можно использовать для диагностики информации о возможных проблемах со здоровьем у человека, в том числе на ранних этапах их возникновения.

Примером служит цикл работ Константина Воронцова из Вычислительного центра им. А.А. Дородницына РАН. В докладе на V Международной конференции «математическая биология и биоинформатика» им были показаны различия в знаках приращения интервалов (dRn), амплитуд (dTn) и углов (dαn) кардиоциклов у здоровых и страдающих различными заболеваниями людей.

d907ca34710944068c87530e3dbc33d6.png

11cd605ebd4449979f69458b090bb5ee.png

28a85744a22f4a30bd419025ed2b314d.png

Как найти курильщика


По данным исследователей, подобная диагностика может иметь высокую точность, а для некоторых болезней и очень высокую.

Проблема здесь в том, что для получения данных для анализа, необходимо проводить большое количество ЭКГ-исследований каждого человека — это не всегда реально сделать. В то же время возможность снятия кардиограммы с мобильного устройства вкупе с наличием соответствующих алгоритмов выявления аномалий в работе сердца могла бы способствовать решению этой проблемы.

На Geektimes уже писали о проекте мобильного кардиографа CardioQvark — с помощью этого устройства можно снимать кардиограмму, просто приложив пальцы к специальному чехлу для iPhone. Устройство не просто снимает кардиограмму, но и отсылает данные лечащему врачу пациента, что помогает ему наблюдать возможные проблемы.

a1d05c6b476a46d2ad664767d69ce370.png

Однако на данный момент необходимо еще вести работу по усовершенствованию методов анлиза и поиска существенных маркеров в сигнале ЭКГ, которые могли бы свидетельствовать о наличиях проблем с разными органами.

Для того, чтобы стимулировать процесс таких изысканий, команда проекта CardioQvark объявляет конкурс среди разработчиков и математиков: его целью является создания алгоритма определения курящего человека по его кардиограмме.

Подробнее о конкурсе


По представленной обезличенной выборке кардиограмм (50 курящих и 50 некурящих людей) нужно разработать алгоритм распознавания курильщиков. Победители получат вознаграждение:

  • I место — 300 тыс. руб.
  • II место — 150 тыс. руб.
  • III место — 100 тыс. руб.


Для анализа предлагается две выборки — обучающая и контрольная. Обучающая выборка содержит 100 уникальных маркированных наблюдений 50 курящих и 50 некурящих людей. Каждое наблюдение содержит:

  • Исходный кардиосигнал с частотой дискретизации 1 000 ГЦ, 16 бит, длительностью 5 минут, формат wav.
  • Фильтрованный кардиосигнал с частотой дискретизации 1 000 ГЦ, 16 бит, длительностью 5 минут, формат wav.
  • Рассчитанные параметры вариабельности сердечного ритма, формат csv.
  • Массив RR-интервалов, формат csv.
  • Маркировка is_noise, is_bad — выделяет помехи и интервалы, не вошедшие в массив для расчета параметров ВСР.
  • Усредненный кардиоцикл и его параметры, формат csv.


Контрольная выборка содержит 250 немаркированных наблюдений курящих и некурящих людей (набор файлов аналогичен обучающей выборке). Люди в обучающей и контрольной выборке разные.

Зарегистрироваться для участия в конкурсе можно по ссылке.

Зачем все это нужно


Выборка для конкурса действительно не так велика, как хотелось бы. Проект мобильного кардиографа длится всего два года — во втором квартале 2016 года его уже можно будет купить. Молодостью проекта объясняется небольшой размер выборки для конкурса — однако с ростом числа пользователей быстрыми темпами будет расти и база собранных кардиограмм.

К моменту когда будет накоплен достаточный для более глубоких исследований массив данных, необходимо получить ответ на вопрос, возможна ли качественная диагностика с помощью ЭКГ и алгоритмов выявления маркеров различных заболеваний.

Курение здесь далеко не самый интересный момент. Необходимо понять, возможно ли с высокой достоверностью по результатам анализа говорить о наличии у человека проблем со здоровьем. Возможен вариант, при котором этого добиться не удастся, однако результаты предварительных исследований ряда научных групп обнадеживают.

А это значит, что лучше начинать работу уже сейчас, чтобы потом сэкономить время и продолжить исследования уже при наличии большого массива собираемых данных. Все это поможет не только быстрее продвинуться в изысканиях, но и спасти чью-то жизнь.

С конца декабря для участия в конкурсе было подано 68 заявок, в том числе и командные. Было отправлено более 150 решений с реализациями алгоритма. Лучший результат: чувствительность = 57,81%; специфичность = 65,05%

Рейтинг участников доступен здесь. Присоединяйтесь к соревнованию!

© Habrahabr.ru