Роза кишечных бактерий

Научные задачи, связанные с обработкой и визуализацией сложных данных, — одни из самых нетривиальных и интересных. В научных экспериментах накапливаются огромные объёмы данных с разнообразными измерения и параметрами, характерными для конкретной области знаний, зачастую взаимосвязанными. При этом удобный и наглядный способ интерпретации этих данных быстро приводит к результату и наглядно демострирует его заинтересованным лицам —, а там и до важного открытия рукой подать. Вспомните таблицу Менделеева, диаграммы Фейнмана, спектральные серии веществ, геномные схемы ДНК, карты реликтового излучения.Я расскажу о научной задаче, с которой нам в Лаборатории данных посчастливилось работать. Мы придумали и реализовали инструмент для сравнения филогенетического расстояния образцов микробиоты и назвали его розой кишечных бактерий:

a79c8c2b180847d0af6d63ea68bb7c10.png

ЗадачаМикробиота — совокупность бактерий, обитающих в нашем кишечнике. Состав, свойства и гены этих бактерий уникальны для каждого человека и меняются со временем, они зависят от разных факторов и напрямую влияют на здоровье человек. Изучением этих зависимостей занимаются ребята из лаборатории биоинформатики НИИ ФХМ во главе с Дмитрием Алексеевым.Микробиота состоит из бактерий разных видов и численности — всего порядка 100 поголовий. Экспериментальные данные содержат расшифровку генома всех поголовий бактерий участников исследования (383 человека). Считается, что геномы отдельных бактерий поголовья у конкретного пациента идентичны между собой. Чтобы вычислить близость поголовий двух разных пациентов вводится метрика — филогенетическое расстояние, которое учитывает совпадения и различия конкретных генов в этих поголовьях. Это расстояние вычисляется для всех пар пациентов по всем поголовьям (типам бактерий). Именно эту информацию и предстояло визуализировать.

Существующие методы и их недостатки Вместе с данными ребята показали нам существующие визуализации: хитмэп и MDS-проекцию.a340074366814ee1858431b531cb22f4.png

Хитмэп попарно визуализирует расстояния между образцами: синим цветом показаны близкие пары, красным — далёкие. Синяя полоска по диагонали показывает нулевое расстояние в парах совпадающих образцов. Беда хитмапа в том, что линейная по сути характеристика (близость) отображается цветом. Поэтому при чтении постоянно приходится переводить одно в другое — расшифровывать диаграмму. Кроме того, интерпретация «близости» цветов не всегда однозначна и зависит от индивидуальных особенностей цветового восприятия человека. Казалось бы, вся информация на виду, а выводы делать сложно. Сам по себе полный квадрат избыточен, симметричен относительно диагонали (близость А и Б такая же, как Б и А).

052adbbb1d6d467199ced26edecba2e7.png

MDS-проекция уменьшает размерность задачи, проецируя на плоскость N×N-мерную картину распределения образцов. Этот метод наиболее популярен при работе с геномными данными, так как он не требует точных координат объектов, необходимо знать лишь расстояния между ними.

Его недостаток в том, что чаще всего уменьшение размерности происходит с потерей части информации. Вычислительная процедура не гарантирует единственность проекции, результаты ее применения могу сильно отличаться даже для очень похожих по сути картин, потому что объекты перемещаются вдоль осей, повинуясь сложному вычислительному, а не особенностям данных. алгоритму. Сравнивать между собой диаграммы рассеяния, построенные для разных матриц расстояний, — бессмысленное занятие.

Роза бактерий Мы решили показать близость образцов буквально — длиной. Для начала представили, что в центре находится один из образцов и расположили остальные вокруг него, отложив по радиусам значения филогенетического расстояния. Цветом закодировали географическую принадлежность образца (США, Китай, Европа или Россия). Результат чем-то напоминает розу ветров, отсюда и название — роза бактерий: 67606d3ac0664290b0b74e1127858ece.png

На окружности образцы сгруппированы по странам и городам. При наведении на любой образец показывается подсказка с его кодовым названием, регионом и точным расстоянием, по клику образец перемещается в центр, а остальные располагаются на соответсвующем расстоянии от него.

Представим теперь, что мы наложили розы разных образцов друг на друга. На каждом образце-радусе будут показаны расстояния от него до всех остальных образцов:

a79c8c2b180847d0af6d63ea68bb7c10.png

Можно построить картину для образцов из конкретного региона:

396f4232bbd44fbc94d5d4d41bd1821c.png

Такая визуализация для конкретного поголовья показывает:1) в микробиоме каких пациентов встречается данная бактерия (заполненные радиусы), а у каких её нет (пустые),2) каковы расстояния от конкретного образца до остальных: минимум, максимум и распределение (картина линий на радиусе),3) как зависит расстояние до конкретного образца от географической принадлежности остальных образцов (цвета линий на радиусе),4) каков общий паттерн распределения для пар образцов по данной бактерии (вид розы в целом),5) какие географические закономерности для пар образцов по данной бактерии (региональные розы).

Розовый сад Такие розы мы строим для каждого поголовья бактерий. Чтобы увидеть картину по всеу микробиому целиком, мы собрали миниатюры роз на одном экране: 68ba408333244827b27ee767560d3c53.png

Получился целый «розовый сад»: видно, по каким бактериям сколько собрано данных и какие закономерности наблюдаются в распределениях. В любую розу можно кликнуть и перейти к более подробному анализу.

Конкретные выводы от Димы и Бори Мы попросили наших коллег-учёных рассказать, как такое представление помогает им в работе. Вот, что они используют.Кластеризация по странам. Поголовья бактерий которые хорошо кластеризуются по своим странам выглядят на картинке одноцветными лепестками для каждой страны. На каждом лепестке мы можем увидеть полосы в том порядке в котором эта страна ближе к другой:

0b6952b7f1324ecb95d12aa2fa215740.png

В примере с бактерией Eubacterium Eligens хорошо видно, что китайцы ближе к китайцам, а русские к русским. При этом американцы смешаны с европейцами.

Бактерии-путешественники. Такие бактерии встречаются в китайских микробиомах: если навести курсор на ближающий к ней китайский образец, видим, что в круг попадает множество более близких «европеек» и «американок». Значит, бактерия в этом образеце могла приехать в Китай из Европы или Америки. Тем интересней, что Dialister Invisius обычно находится в ротовой полости. Ох уж эти международные поцелуи :-)

fb9344f4a6df43cd8a345d91a4621d1e.png

Две разные бактерии вместо одной. Бактерия Barnesiella Intestinihominis обнаруженна недавно (в 2008), мы еще не так много знаем про ее разновидности. Но, судя по картинке, можно выделить две чётких разновидности. Образцы делятся на две группы, внутри которых близость гораздо больше, чем между группами, даже в разных странах.

6ae4b0e7e1cf45aaa00d22c73dc5ba51.png

Контроль качества и артефактов. Образец SRS014979 имеет необычно много рисок на радиусе вверху, значит, он сильно удалён ото всех остальных образцов. Будем честны, вряд ли одна американская бактерия имеет в 2 раза больше мутаций, чем другие, гораздо вероятнее ошибка в данных или в рассчётах. Это хороший сигнал проанализировать ситуацию более подробно.

4bac0df4066e40029e42e36e2c2d1966.png

Густой сад. Что нам очень понравилось, так это сад из роз — хорошее обобщение всего верхнего уровня с возможностью покопаться глубже. В густом саду мы видим розы с большим и маленьким количеством бактерий каждого поголовья, а также сразу видим, в каких популяциях бактрия представлена и имеет разделенные структуры (кластеры).

Живой прототип: rosegarden.datalaboratory.ru Визуализация сделана на D3.js, информационный дизайнер — Таня Мисютина, разработчик — Дамир Мельников. Спасибо Диме Алексееву и Боре Коварскому за интересную задачу и активное участие в её решении.

© Habrahabr.ru