Лекции по биоинформатике: от статистики до генетических конструкций

Чтобы погрузиться в относительно новую для себя научную область, существует огромное количество самых разных мероприятий и проектов. В последние годы их количество и форматы значительно расширились: это открытые лекции и целые научные фестивали, онлайн-курсы и онлайн-программы, летние стажировки и школы, неформальные лекции в барах, опенсорсные проекты и так далее.

Уже пять лет Институт биоинформатики собирает ученых-биоинформатиков и студентов со всей страны и в течение недельной интенсивной учебы за городом на летней школе направляет биологов, медиков, информатиков и математиков в сторону биоинформатики — до сих пор очень динамично развивающейся области. С 2013 года мы записываем лекции на видео и собираем подборку полезных материалов для тех, кто не участвует в мероприятиях, но хотел бы развиваться в этой области.

Программа школы разрабатывается таким образом, чтобы объединить мир биологии и программирования и стимулировать не только развитие профессиональное развитие, но и междисциплинарное общение.

image

Мы продолжаем делиться архивом видеозаписей лекций летних школ. Лекции, которые можно смотреть без дополнительной подготовки, отмечены »*». Просмотр остальных лекций требует знаний в области биологии и программирования. Под катом описание содержания лекций, ссылки на слайды и видеозаписи.

Статистика в биоинформатике

9e094d3feeed441d9b50f08a0178d6ab.jpg

Статистический анализ биомедицинских данных (Михаил Пятницкий, НИИ биомедицинской химии им. Ореховича)
Видео | Слайды

Лекция посвящена практическим аспектам статистического анализа '-омиксных' данных. В частности, описаны методики разведочного анализа, распознавания образов, кластерного анализа.

Как работать с данными и не чувствовать беспомощность? (Никита Алексеев, George Washington University)
Видео | Слайды

С одной стороны, естественные науки предоставляют огромные объемы данных и задают самые разные вопросы относительно этих данных. С другой стороны, статистика располагает множеством методов для решения таких вопросов. Такое изобилие, естественно, привносит с собой сложности — как выбрать метод, который подходит для решения именно вашей проблемы, как учесть все нюансы и не запутаться во всем этом. Универсального рецепта нет. В лекции обсуждаются различные подходы к этой проблеме.

Как правильно задать вопрос знакомому статистику (Никита Алексеев, постдок, George Washington University)
Видео | Слайды

Лекция будет полезна всем, кто сталкивается с проблемами статистической обработкой данных. Какие для них возможны решения, какие возникают трудности, и что спрашивать у статистика, с которым удалось начать сотрудничать, чтобы получить максимальную пользу для своего проекта.

Иммуноинформатика


0fbbadad7cbf0cf238bd4e0696095953.jpg

Анализ репертуаров иммунных рецепторов (Вадим Назаров, Высшая Школа Экономики, Институт Биоорганической Химии РАН)
Видео | Слайды

Применение NGS технологий в иммунологии позволило очень глубоко секвенировать репертуары клеточных рецепторов. Но на полученные данных, к сожалению, нельзя просто смотреть и получать инсайты — необходимо разработать различные методы анализа репертуаров. О том, какие методы были разработаны, насколько они адекватны, куда движется этот мир, и где в нем можно себя приложить.

Иммуноинформатика: алгоритмический подход к решению прикладных задач иммунологии (Яна Сафонова, Центр алгоритмической биотехнологии, СПбГУ)
Видео | Слайды

Анализ адаптивной иммунной системы является важнейшим этапом при разработке лекарств, оценке эффективности лечения, изучении различных заболеваний. Современные NGS технологии позволили делать глубокое сканирование репертуаров антител и Т-клеточных рецепторов, что способствовало развитию новой области биоинформатики: иммуноинформатика.

Иммуноинформатика решает задачи, имеющие применение в различных иммунологических направлениях: мониторинг развития иммунного ответа, анализ эволюционного развития репертуаров, понимание разнообразия адаптивной иммунной системы. В рамках лекции рассматриваются задачи современной иммуноинформатики и обсуждаются перспективы ее развития.

45d05534e5b107e10c0e4a08ed6de743.jpg

Молекулярное баркодирование, анализ репертуаров Т-клеточных рецепторов и антител (Дмитрий Чудаков, Заведующий лаборатории геномики адаптивного иммунитета в Институте биоорганической химии РАН, руководитель группы адаптивного иммунитета в CEITEC MU, Masaryk University)
Видео | Слайды

Высокопроизводительное секвенирование интересующих фрагментов генома (targeted resequencing) потенциально позволяет проводить глубокий анализ, выявляющий присутствие в образце редких подвариантов последовательностей, а также дающий полную картину о структуре разнообразия последовательностей в образце.

Однако, «бутылочные горлышки» на стадиях получения и приготовления образцов для массированного секвенирования, количественные искажения, связанные со стохастической природой ПЦР, неравной эффективностью амплификации и секвенирования различных последовательностей, а также накопление ошибок ПЦР и собственно секвенирования, существенно ограничивают возможности такого анализа.

Уникальное молекулярное баркодирование (unique molecular bacrodes, unique molecular identifiers, UMI) позволяет радикально повысить качество секвенирования, в том числе протяженного, эффективно корректировать накопленные ошибки без потерь реального разнообразия вариантов, устранить количественные искажения, а также практически идеально нормировать образцы для сравнительного анализа.

В лекции рассказывается о том, как работают подходы на основе молекулярного баркодирования с примерами из личного опыта работы с репертуарами рецепторов иммунных клеток — Т-клеточных рецепторов и антител.

Системная биология


Введение в системную биологию (Илья Серебрийский, Fox Chase Cancer Center, USA)
Видео | Слайды

В лекции дается общее представление представление о системных свойствах биологических объектов. Краткое описание основных составляющих системной биологии. Интерактомика, построение моделей. Некоторые достижения системной биологии (выборочно, в основном в области онкологии) и соответствующие общедоступные ресурсы (TCGA/cBioPortal, CCLE)

7c39f28741a2620a9670893783b78cf4.jpg

Вычислительная системная биология для изучения и лечения рака (Андрей Зиновьев, Institut Curie)
Видео | Слайды

Вычислительная системная биология рака является применением общих подходов системной биологии, связанных с системным сбором полногеномных данных и их математическим моделированием, для изучения канцерогенеза, прогнозирования и разработки новых методов лечения раковых заболеваний. Данных подход связан с рядом особенностей таких как учет быстрой эволюции биологической системы в условиях геномной и эпигеномной нестабильности, взаимодействия с клетками нормальной стромы и воздействия различных факторов межклеточной среды, разнообразия и качества клинического материала. В лекции кратко описаны несколько характерных подходов к анализу и моделированию данных в биологии рака. В частности, принципы формализации и использования в моделировании знания о биохимии рака (Атлас Сигнальных Сетей в Раке), подходы к деконволюции полногеномных молекулярных профилей в раке, построение дискретных математических моделей с целью предсказания эволюции раковой опухоли.

Проблема воспроизводимости результатов в системной и не только биологии (Илья Серебрийский, Fox Chase Cancer Center, USA)
Видео | Слайды

Проблема воспроизводимости результатов — ключевая для современной биологии, особенно для системной биологии. Лекция посвящена обзору нынешнего положения дел, основные проблемы воспроизводимости, их причины. Ответственность организаций, научных журналов, исследователей. Особенности проблемы в системной биологии. Основные направления разрешения проблемы воспроизводимости.

Разное


«Мотивы» — паттерны в геномных последовательностях (Иван Кулаковский, ИМБ РАН; ИОГен РАН)
Видео | Слайды

С точки зрения молекулярной биологии в лекции обсуждается регуляция активности транскрипции генов у высших эукариот и роль регуляторных белков-транскрипционных факторов. С точки зрения биоинформатики лектор рассказывает, как компьютерное представление мотивов — характерных паттернов в геномных текстах — помогает распознать регуляторные сигналы, узнаваемые транскрипционными факторами в ДНК. С точки зрения информатики рассматривает проблему построения модели 'мотива' как задачу поиска локального сходства множества последовательностей.

cecd7bcd9cddf5d5c795258e77fbf63b.jpg

Аннотация промотерных последовательностей (Татьяна Татаринова, University of Southern California)
Видео | Слайды

В лекции затрагиваются вопросы закономерности и свойств промотерных последовательностей. Мотивы и метилирование промотеров. Алгоритмы предсказания и анализа промотерных последовательностей. Применение в биотехнологии.

Предсказание происхождения на основании Admixture Алгоритмы GPS и Readmix (Татьяна Татаринова, University of Southern California)
Видео | Слайды

Лекция посвящена генотипированию и отбору информативных позиций на геноме, обзору современных технологий, предсказанию био-географического происхождения человека и других организмов по анализу генома. А также анализу и сравнению существующих алгоритмов для биогеографии.

Алгоритмы в биоинформатике (Антон Банкевич, Центр алгоритмической биотехнологии, СПбГУ)
Видео | Слайды

Вводная лекция по алгоритмам в биоинформатике, в которой рассматриваются основные подходы и примеры их использования.

Связь между мозгом и Deep Learning (Дмитрий Фишман, Quretec, University of Tartu, Estonia)
Видео | Слайды

Лекция состоит из четырех частей: в первой рассматриваются пути обработки мозгом различных сигналов от внешнего мира, и формирование принятия решений на основе полученных сигналов. Во второй — эволюция методов машинного обучения, которые привели к возникновению технологии глубокого обучения (Deep Learning), осуществивших революцию во многих областях науки. В третьей части речь пойдет о сходствах и различиях между основными принципами Deep Learning. В заключении лектор приводит несколько примеров успешного применения Deep Learning в биоинформатике, и чего можно достичь в области медицинской визуализации с использованием Deep Neural Networks.

Эта лекция была создана представителями исследовательской группы по вычислительным нейронаукам Университета Тарту. В частности идея и слайды принадлежат Raul Vincente и Ilya Kuzovkin. Оригинал презентации на английском языке.

871a01e640521f44110c0636f5b36441.jpg

Перспективы искусственной модификации человеческих генотипов (Алексей Кондрашов, MГУ, MSU)
Видео

Никакие законы природы не запрещают синтез длинных молекул ДНК с заданной последовательностью. Каков будет фенотип человека, генотип которого не несет молодых производных аллелей? Это зависит от того, насколько распространены знаковый и сужающий эпистаз. В лекции рассматриваются рассмотрены подходы к изучению этого вопроса.

Биоинформатика в синтезе генетических конструкций (Павел Яковлев, BIOCAD)
Видео | Слайды

Развитие методов in silico молекулярного дизайна позволяет строить любые белковые конструкции с заданными свойства. Полученные аминокислотные последовательности с большой вероятностью образуют белки с нужным функционалом. Но встает новая задача: построить клеточную линию, которая бы синтезировала такие белки. В лекции рассматриваются вопросы, возникающие при решении этой задачи: почему нельзя просто взять любой обратный транскрипт, как собрать требуемый ген, как вставить его в вектор, и, конечно, причем тут биоинформатика?

3f3e57c47c0578fbdb0b8d38a1ec1b4e.jpg

Обзор современных геномных измерений отдельных клеток (Петр Харченко, Harvard University)
Видео | Слайды

Изучение сложных тканей и классификация клеточных типов традиционно базировалось на морфологических и цитологических свойствах. Несколько видов новых экспериментальных технологий теперь позволяют изучать геномные характеристики индивидуальных клеток и одновременно измерять сотни или тысячи отдельных клеток. Лекция дает обзор таких технологий и биоинформатических методов, которые используются для классификации клеточных типов, состояний и генетических линий из подобных данных.

Использование омиксных данных в изучении эволюции человека (Филип Хайтович, Shanghai Institutes for Biological Sciences, SkolTech)
Видео | Слайды

По концентрации метаболитов и липидов можно оценить физиологическое состояния тканей. В лекции представлены несколько комплексных исследований уровня концентрации метаболитов и липидов в тканях человека и животных, которые дают новые знания о молекулярных механизмах, лежащих в основе физиологических особенностей, уникальных для человека.

Послесловие


В 2016 году летнюю школу по биоинформатике поддерживали компании JetBrains, РВК, BIOCAD, EPAM Systems, Parseq Lab, за что им большое спасибо.

В 2017 году летняя школа по биоинформатике пройдет с 31 июля по 5 августа в Долгопрудном на базе МФТИ. Фокус школы в этом году — методы интеллектуального анализа данных (data mining) в биоинформатике. Дедлайн подачи заявок — 10 июня. Спешите подать заявку на участие.

© Geektimes