Nvidia и исследователи из Гарварда научили ИИ находить активные зоны в клеточных ДНК

Исследователи из Nvidia и кафедры стволовых клеток и регенеративной биологии Гарвардского университета разработали набор инструментов для глубокого обучения, чтобы помочь ученым изучать области ДНК, определяющие уникальную функцию клетки, даже когда данные ограничены или зашумлены. Такое часто бывает при раннем обнаружении рака или генетических заболеваниях.

de72c082e70b660e2250bfb299eac5c9.png

AtacWorks, набор инструментов глубокого обучения для исследований эпигеномики, представленный в статье Nature Communications, снижает затраты и время, необходимые для работы с такими элементами.

Исследователи отмечают, что отдельная клетка тела несет в себе копию ДНК, но активирует только его часть, необходимую ей для функционирования. Таким образом, каждый тип клеток — печени, крови или кожи — активирует разные гены.

AtacWorks позволяет снизить уровень зашумленности доступных областей клеток, а также выполняет логический вывод для всего генома всего за полчаса с помощью графических процессоров Nvidia Tensor Core. Он доступен на NGC, центре программного обеспечения Nvidia, оптимизированном для графических процессоров.

AtacWorks работает с ATAC-seq, популярным методом поиска открытых участков в геноме как в здоровых, так и в больных клетках, что позволяет получить критически важную информацию для открытия лекарств.

ATAC-seq обычно требует десятков тысяч клеток для получения чистых данных, что очень затрудняет исследование редких типов клеток, таких как стволовые. Применяя AtacWorks к данным ATAC-seq, можно достичь того же качества с помощью всего десятков клеток. Это позволяет ученым больше узнать о последовательностях, действующих в редких типах клеток, и выявлять мутации, которые делают людей более уязвимыми к болезням.

ATAC-seq впервые применили в 2013 году как способ сканирования эпигенома для обнаружения участков хроматина. Этот метод, популярный среди ведущих исследовательских лабораторий по геномике и фармацевтических компаний, измеряет интенсивность сигнала в каждой области генома. Пики сигнала соответствуют участкам с открытой ДНК. Чем меньше доступно клеток, тем более зашумленными выглядят данные, что затрудняет определение доступных участков ДНК.

AtacWorks, нейросеть на основе PyTorch, была обучена на помеченных парах совпадающих наборов данных ATAC-seq: один высококачественный, другой — зашумленный. Учитывая субдискретизированную копию данных, модель научилась предсказывать высококачественную версию и определять пики в сигналах.

Схема стратегии обучения и тестирования AtacWorks на данных ATAC-seq. Чистый сигнал ATAC-seq с высокой степенью покрытия получается путем агрегирования данных от всех ячеек. Данные агрегируются по случайно выбранному подмножеству этих ячеек для получения зашумленного сигнала. Парные чистые и зашумленные наборы данных используются для обучения модели AtacWorks. Пиковые сигналы производились MACS2 (синий) и AtacWorks (зеленый) на зашумленных данных, агрегированных для 1–50 ячеек. Серые полосы показывают пиковые сигналы MACS2 для большего количества ячеек, чтобы проиллюстрировать, сколько их требуется для достижения той же производительности, что и AtacWorks.Схема стратегии обучения и тестирования AtacWorks на данных ATAC-seq. Чистый сигнал ATAC-seq с высокой степенью покрытия получается путем агрегирования данных от всех ячеек. Данные агрегируются по случайно выбранному подмножеству этих ячеек для получения зашумленного сигнала. Парные чистые и зашумленные наборы данных используются для обучения модели AtacWorks. Пиковые сигналы производились MACS2 (синий) и AtacWorks (зеленый) на зашумленных данных, агрегированных для 1–50 ячеек. Серые полосы показывают пиковые сигналы MACS2 для большего количества ячеек, чтобы проиллюстрировать, сколько их требуется для достижения той же производительности, что и AtacWorks.

Исследователи обнаружили, что с помощью AtacWorks они могут идентифицировать доступный хроматин в зашумленной последовательности из 1 миллиона считываний почти так же хорошо, как при использовании традиционных методов с чистым набором данных из 50 миллионов считываний. Это позволит снизить стоимость сбора образцов и секвенирования.

При использовании графических процессоров Tensor Core модели потребовалось менее 30 минут для вывода по всему геному. Обычно этот процесс занимает 15 часов в системе с 32 ядрами ЦП.

Изучение доступных участков ДНК может помочь идентифицировать определенные мутации или биомаркеры, которые делают людей более уязвимыми к заболеваниям, включая болезнь Альцгеймера, болезни сердца или рак. Эти знания также могут быть полезны при открытии лекарств, давая исследователям лучшее понимание механизмов заболевания.

В статье Nature Communications исследователи из Гарварда применили AtacWorks к набору данных о стволовых клетках, которые производят красные и белые кровяные тельца — редкие подтипы, которые невозможно изучить традиционными методами.

Имея набор образцов всего из 50 клеток, команда смогла идентифицировать отдельные участки ДНК, связанных с клетками, которые развиваются в белые кровяные тельца, и отдельные последовательности, которые коррелируют с красными клетками.

Ранее команда из Центра квантовой биологии Леверхалма Университета Суррея смоделировала процесс туннелирования протонов на компьютере и пришла к выводу, что туннельный эффект может вызвать кратковременные мутации ДНК. Туннелирование протона представляет собой спонтанное исчезновение частицы из одного места и появление ее поблизости. С помощью компьютерного моделирования исследовательская группа обнаружила, что атомы водорода, которые связывают цепи двойной спирали ДНК, могут при определенных условиях вести себя как волны и существовать в нескольких местах одновременно благодаря протонному туннелированию, что приводит к мутациям.

© Habrahabr.ru