Алгоритм выявления курильщика по кардиограмме: Промежуточные итоги исследовательского конкурса
На Geektimes уже писали о проекте мобильного кардиографа CardioQVARK, а на Хабре — о проводимом его командой исследовательском конкурсе для разработчиков и математиков. Вкратце, его суть заключается в разработке алгоритма распознавания курильщика по его кардиограмме.
Конкурс стартовал в конце декабря и привлек внимание большого количества специалистов в области математики, алгоритмов и машинного обучения. Сегодня мы расскажем о его предварительных результатах.
Зачем все это нужно
Существуют исследования специалистов по машинному обучению, которые показывают, что ЭКГ-сигнал несет в себе информацию о функционировании всех систем организма, а не только сердца. При этом каждое заболевание по-своему «модулирует» ЭКГ-сигнал, а значит знаки приращений интервалов и амплитуд последовательных кардиоциклов можно использовать для диагностики информации о возможных проблемах со здоровьем у человека, в том числе на ранних этапах их возникновения.
В докладе на V Международной конференции «математическая биология и биоинформатика» Константин Воронцов из из Вычислительного центра им. А.А. Дородницына РАН продемонстрировал различия в знаках приращения интервалов (dRn), амплитуд (dTn) и углов (dαn) кардиоциклов у здоровых и страдающих различными заболеваниями людей.
Поиск курильщика по кардиограмме поможет добиться главной цели соревнования — получение результата, который бы продемонстрировал возможность или невозможность осуществления качественной диагностики с помощью ЭКГ и алгоритмов выявления в сигнале кардиограммы маркеров заболеваний различных органов.
Это по-настоящему интересная и важная задача, решение которой поможет ускорить дальнейшие исследования, когда появится большая база данных кардиограмм, снятых с помощью мобильного кардиографа.
Общая статистика
В ходе первого этапа конкурса его участниками стали 148 команд и индивидуальных конкурсантов, которые отправили 1738 решений. В итоговый рейтинг попали 72 участника. Теперь первый этап соревнования завершен, и до 15 марта организаторы принимают работы 10 лучших конкурсантов.
Под спойлерами ниже представлен список университетов, научных институтов РАН, компаний и организаций, чьи сотрудники сформировали команды для участия в соревновании (в скобках указывается количество членов команды, если цифры нет — это значит, что участвовал один человек):
Университеты:
- МГУ им. М.В. Ломоносова: Мех-мат, ВМК, Физический факультет (28)
- МФТИ (20)
- СПбГУ
- МАМИ
- МГТУ имени Н.Э. Баумана (3)
- НИУ ВШЭ (6)
- Казанский ГМУ
- ПензГТУ (3)
- ВятГУ (2)
- ВлГУ
- УГНТУ
- САФУ им. М.В. Ломоносова
- УГАТУ (2)
- LUT, Финляндия
- БГТУ им. В.Г. Шухова
- Приокский государственный университет
- Белорусский государственный университет (2)
- SMMS (NY) (2), США
- УрФУ
- НИУ МЭИ
- НИУ МИЭТ
- ТГТУ
- КНУ им. Т. Шевченко
- ГрГУ им. Янки Купалы
- ПГТУ
- РГРТУ
- ННГУ им.Лобачевского
Институты РАН:
- ИСА РАН
- ВЦ РАН им. А.А. Дородницына (4)
- ИБХ РАН
- ИММ УрО РАН им. Н.Н. Красовского
- ИАП РАН
- ИПУ РАН им. В.А. Трапезникова
- СПИИРАН
- ИМ СО РАН (2)
- ИППИ РАН (3)
Компании и организации:
- Яндекс (1) и Яндекс ШАД (2)
- Searchmetrics
- COMODO
- BBOXX Ltd
- Cinimex
- Softsystem
- Rambler&Co
- Ident
- NetCracker Technology Corp
- ЦГЭ
- ВЕБРОБОТИКС
- МЕТКОМБАНК
- Baker Hughes
- Luxoft
- Сфит Лайф ФудСервис
- Кировский научно-исследовательский институт гематологии и переливания крови
А вот как выглядит десятка лидеров, которым удалось создать алгоритмы, показавшие наилучшие показатели чувствительности и специфичности:
1. Белавин Владислав Сергеевич (belavin). МФТИ. Первое решение: Se = 54,69%, Sp = 45,70%, Sum = 100,39%. Лучшее решение: Se = 60,94%, Sp = 78,57%, Sum = 139,51%.
2. Дьяконов Александр Геннадьевич (djakonov). МГУ им. М.В. Ломоносова, ВЦ РАН им. А.А. Дородницына. Первое решение: Se = 39,06%, Sp = 46,24%, Sum = 85,30%. Лучшее решение: Se = 73,44%, Sp = 67,74%, Sum = 141,18%.
3. Исаков Роман Владимирович (IRV). ВлГУ. Первое решение: Se = 57,81%, Sp = 53,76%, Sum = 111,57%. Лучшее решение: Se = 62,50%, Sp = 70,97%, Sum = 133,47%.
4. Брюханов Илья Александрович (ibryukhanov). МГУ им. М.В. Ломоносова. Первое решение: Se = 54,69%, Sp = 59,14%, Sum = 113,83%. Лучшее решение: Se = 50,00%, Sp = 81,18%, Sum = 131,18%.
5. Докукин Александр Александрович, Сенько Олег Валентинович, Чучупал Владимир Яковлевич (alex_dok). ВЦ РАН им. А.А. Дородницына. Первое решение: Se = 28,13%, Sp = 56,99%, Sum = 85,12%. Лучшее решение: Se = 59,38%, Sp = 66,67%, Sum = 126,04%.
6. Цацорин Евгений Анатольевич (eugtsa). Первое решение: Se = 50,00%, Sp = 50,00%, Sum = 100,00%. Лучшее решение: Se = 60,94%, Sp = 63,98%, Sum = 124,92%.
7. Тихонов Алексей Иванович (potom20). Первое решение: Se = 64,06%, Sp = 31,72%, Sum = 95,78%. Лучшее решение: Se = 57,81%, Sp = 65,05%, Sum = 122,86%.
8. Дубнов Игорь Андреевич (dubnov). МФТИ. Первое решение: Se = 89,06%, Sp = 14,52%, Sum = 103,58%. Лучшее решение: Se = 40,63%, Sp = 75,27%, Sum = 115,89%.
9. Семенов Александр Сергеевич (AlexSemenov). МФТИ. Первое решение: Se = 70,31%, Sp = 29,03%, Sum = 99,34%. Лучшее решение: Se = 39,06%, Sp = 75,81%, Sum = 114,87%.
10. Татараидзе Александр Бидзинович (leksotat). МГТУ имени Н.Э. Баумана. Первое решение: Se = 79,69%, Sp = 12,37%, Sum = 92,06%. Лучшее решение: Se = 42,19%, Sp = 72,58%, Sum = 114,77%.
Победители соревнования получат вознаграждение: 300 тыс. рублей за первое место, 150 тыс. за второе, и 100 тыс. — за третье.
Выборка конкурса не так велика, как хотелось бы. Обучающая выборка содержит 100 уникальных маркированных наблюдений 50 курящих и 50 некурящих людей, а контрольная — 250. Однако даже этих данных должно быть достаточно для получения ответа на главный вопрос о возможности выявления с помощью ЭКГ признаков различных заболеваний.
И лучшие результаты представленных конкурсных алгоритмов позволяют надеяться на то, что он будет положительным.
Рейтинг участников доступен по ссылке. Следите за ходом соревнования!