[Из песочницы] Подводная лодка информатики в степях биологии
Биоинформатика стремительно набирает популярность и превращается из убежища для гиков в широко известную устоявшуюся дисциплину. Думаю, большинство читателей Geektimes с уверенностью могут сказать, что кролик — это не только ценный мех и 3–4 килограмма диетического мяса, но и 44 хромосомы, множество разнообразных белков, механизмов транскрипции и трансляции и чего только не. Также я вряд ли кого-нибудь удивлю, если скажу, что все это можно изучать и анализировать не только стоя в белом халате у микроскопа в стерильной лаборатории, но и лежа на диване с ноутбуком, попивая что-то шотландское со льдом. Однако, дальше этого познания обычно не заходят. Я решил-таки попытаться исправить это досадное недоразумение и сделать короткую экскурсию в то, как выглядит биоинформатика изнутри с практической точки зрения, исходя из своего опыта.
В этой статье я соберу вопросы, которые сам же задавал три года назад, в бытность еще студентом математического факультета, и постараюсь на них ответить.
Зачем нужна биоинформатика?
Задача биоинформатики, неформально говоря, — находить логику в биологических данных. Данные эти получают в ходе экспериментов, и если для биолога данные могут выглядеть как светящаяся рыбка или красивое разноцветное пятно на фотографии, то для биоинформатика данные представлены как:
- строки (последовательности символов, описывающих ДНК/РНК/белки);
- трехмерные и двумерные координаты (данные микроскопии);
- массивы вещественных чисел (например, каждое число может быть экспериментально измеренной массой белка или его части);
- вектора из целых неотрицательных чисел (например, глубина покрытия дискретными объектами, так называемыми ридами);
- матрицы из нолей и единиц (например, могут ли разные виды бактерий уживаться друг с другом);
И еще множество других возможных представлений реальных биологических явлений с помощью математических объектов.
У биологов данные интереснее?
Несомненно. Зато биоинформатикам не нужно бегать в лабораторию по выходным (клеточные культуры, например, про выходные не знают и имеют тенденцию умирать без должной заботы). Да и исследования в биологии часто длятся годами (в зависимости от свойств модельных организмов), в то время как в биоинформатике прогресс зависит в основном от способности решать алгоритмические задачи и писать «шустрый» код. Ну, и возможность удаленной работы из любой точки мира тоже несомненный плюс в пользу биоинформатиков.
Сколько в биоинформатике био, а сколько — информатики?
Это очень сильно зависит от конкретного научного центра и исследовательской группы. Понимать биологию на минимальном уровне нужно — никто не будет вам разжевывать научный проект до уровня школьной задачи по математике. Вы сами должны будете смоделировать ситуацию, исходя из вашего понимания биологии. Однако, действительно глубокого понимания не ожидается, поэтому то, что вы помните только про пестики и тычинки, не будет препятствием, если вы решите заняться именно этой наукой. Необходимые основы биологии несложно выучить уже в процессе работы над биоинформатическим проектом.
Что действительно полезно и нужно будущему биоинформатику «от информатики», так это знание биотехнологий, то есть того, каким образом получены ваши данные, какие в ходе эксперимента могли возникнуть проблемы. На мой взгляд, достаточно пробежаться галопом по какому-нибудь курсу молекулярной биологии, но потратить время и серьезно осмыслить принципы работы современных приборов, используемых для экспериментов.
Будущему биоинформатику «от биологии» в процессе обучения я бы посоветовал пропускать поначалу доказательства и описания методов и алгоритмов и изучать их как «черные ящики», то есть в сугубо прикладном аспекте: «A на входе — B на выходе», иначе есть риск «утонуть» в теоретических выкладках на несколько лет. Однако, пропустив теорию и научившись чему-то на практике, вам будет несложно вернуться и взглянуть на нее уже другими глазами.
А вот если я стану биоинформатиком, значит, я буду знать биоинформатику?
К сожалению, нет. Биоинформатика в нынешнем состоянии — это множество довольно объемных разделов, как и в любой другой науке. Если сравнить, например, с физикой, довольно очевидно, что специалист в теоретической механике, скорее всего, будет испытывать определенные трудности в понимании последних статей по квантовой физике, и более того — у него скорее всего не будет времени читать эти статьи.
А разделов в биоинформатике много и на любой вкус:
- Эволюция (причем не только в виде «сначала были питекантропы», а и менее известные вопросы, такие, как эволюция, происходящая в раковой опухоли)
- Поиск генетических вариантов, приводящих к заболеваниям
- Конструирование и подбор лекарств, связывающихся с определенными видами «опасных для организма» белков
- Изучение функций генов, их аннотация
- Структурная биоинформатика (манипуляции с 2D и 3D структурами, такими как, например, белки или РНК)
- Сборка геномов
- Построение карт того, каким образом вся эта мешанина из белков/РНК/ДНК/жиров/умных мыслей/занятий в спортзале/кремлевской диеты и прочего между собой реагирует (примерно как в этом видео, но еще интереснее и сложнее)
- Моделирование сложных систем (таких, как развитие организма из зародыша)
- Нейробиология (вернее, анализ данных, полученных нейробиологами);
и многое другое (да простят меня биоинформатики, чью область я забыл упомянуть).
Последние три пункта часто относят к системной биологии, но эти науки, что называется, «на стыке», и перепрыгнуть туда и обратно можно с минимальными усилиями.
Есть ли смысл выбирать биоинформатику своей профессией?
Чтобы ответить на этот вопрос, распределите следующие характеристики по степени значимости для вас (присвойте ранг 6 самой важной характеристике, 1 — наименее важной), а затем суммируйте с указанным знаком.
+ Я всегда хотел быть научным работником и ощущать то, что я вношу определенный вклад в будущее человечества.
+ Меня интересуют науки о жизни, я хотел бы иметь возможность узнавать что-то новое о биологии каждый день, но моя учеба в университете не была связана с биологией — или — Я биолог, но мне надоели монотонные технические манипуляции с пипетками и я хочу больше понимать, какие именно данные я получил и уметь работать с ними.
+ Биоинформатика интересна мне как подраздел информатики, мне кажется, там много задач, надо которыми можно подумать.
— Я хочу получать большую зарплату сразу после выпуска из университета.
— Мне хотелось бы постоянно ходить в белом халате, как настоящий ученый.
— Мне нравится размышлять о задачах и читать интересные статьи о биологии, но не нравится программировать.
Если вы получите результат меньше 0, вам точно не стоит идти в биоинформатику. Вы чувствуете боль от того, насколько нестрог и не универсален этот тест, но его идея вам понятна и чем-то даже нравится? Добавьте себе +3 балла к результату.
Как выглядит карьерная лестница для биоинформатика?
«Если очень захотеть, можно в космос полететь», однако если вы ростом 2 метра и весом 150 кг — вас вряд ли возьмут в отряд космонавтов. А что же с биоинформатиками?
Основное образование
Карьера закладывается еще с высшего образования. Бакалавриат может быть любым, но все же не гуманитарным. Экономика, физика, химия, математика, не говоря уже про компьютерные науки и биологию.
Наиболее благоприятный выбор магистратуры — либо магистратура по биоинформатике, либо «дополнение» к вашему бакалавриату, чтобы у вас было и что-то биологическое, и что-то вычислительное после этих двух ступеней. Правда, поступать в магистратуру с совершенно другим профилем — задача не из легких.
Что касается возможности получения первой ступени высшего образования (бакалавр/специалист) сразу со специализацией в биоинформатике — отношение к этому у меня неоднозначное.
Биоинформатика должна быть осознанным выбором, а сделать такой выбор после школы выглядит довольно затруднительным, но если вы уверены в том, что это — ваше призвание, то почему бы и нет. Мне же больше импонирует подход «получить общее образование и затем выбрать специализацию», нежели сразу начать работать в узком направлении. Я не уверен в возможности легко переквалифицироваться в специалиста другого профиля после 4–6 лет обучения, но примеры успешного разбиоинформатизирования есть.
Дополнительное образование
Для шапочного знакомства с биоинформатикой уже создано немало онлайн-курсов (русскоязычный Stepic.org, англоязычные Сoursera, edX и т.п.). Среди онлайн-курсов есть очень полезные (я бы порекомендовал курс от UCSD по алгоритмам в биоинформатике и курс про эволюцию от Duke University), записывайтесь, проходите, если станет скучно или трудно — вы спокойно бросите это дело, не потратив ни чужого времени, ни своих нервов. Ведь для обучения на очной форме прилично идти мотивированным — образно говоря, в костюме-тройке, с букетом в руках и гвоздикой в петлице — чтобы биоинформатика сразу поняла, что эти отношения для вас — серьезные.
Дополнительное образование — это замечательная вещь, у которой практически одни плюсы — занятия по выходным или вечерам (не мешает основной учебе или работе), увлеченный коллектив и часто даже отсутствие платы за обучение. Но — отбор на подобные программы довольно жесткий, курсы объемные и темп быстрый. Именно поэтому, если вы пока только хотите понять, заниматься ли дальше биоинформатикой, лучше сделать это до — посмотреть онлайн-курсы, поговорить с людьми из профессии, почитать что-то научно-популярное (из того что писали люди, которых я знаю лично, — статья на Хабрахабр, статья на Geektimes, обзор «Я б в биоинформатики пошел — пусть меня научат» на Биомолекуле).
Насколько знаю, в России есть две дополнительные программы — в Институте биоинформатики (ИБ) в Питере и в столице — Московская школа биоинформатики (МШБ). На мой взгляд, они примерно равны магистратуре по уровню получаемых знаний по специальности, но вот только «редкая птица долетит до средины Днепра» — многие студенты отваливаются, посетив десяток занятий — ох, нелегкая это работа — собирать геном бегемота.
Сам я закончил Институт биоинформатики как часть магистерской программы Академического университета (СПбАУ), поэтому расскажу подробнее про ИБ (про МШБ после того, как они расстались с Яндексом, практически ничего не знаю). Программа длится год, занятия по субботам. Семинары и лекции почти все мне нравились, но замечательнейшая часть обучения — научные проекты. Научные руководители там из ведущих научных центров России и коварной заграницы. В теории проекты должны быть образовательными в первую очередь, но чаще всего это самая настоящая наука. Славное было время: бессонные ночи, полные арабских сказок »1000 и 1 скрипт» (на самом деле поначалу сказки были индусские), ожесточенные защиты проектов, и ощущение причастности к тому самому переднему краю, с которого и приходят научные статьи, переводы которых можно часто встретить на Geektimes. Да, кстати, там есть буфет. И набор туда идет сейчас. Одновременно и достоинством, и недостатком ИБ является отсутствие фундаментальных дисциплин — только биоинформатика, и ничего кроме.
Если хочется больше предметов, то обладатели технических дипломов бакалавра/специалиста, как и я, могут, в принципе, сразу поступить в 2-х летнюю магистратуру по алгоритмической биоинформатике. Прием стандартный: заявки до середины лета, потом собеседование. Но биологам туда идти совсем бессмысленно.
Для полноты рассказа пришлось воспользоваться своей агентурной сетью. Накануне публикации один из разведчиков наконец-то нарушил режим радиомолчания и передал в штаб радиограмму про МШБ. Основными моментами в расшифрованном сообщении про процесс обучения в МШБ были: а) возможность получения официального диплома от Вышки; б) наличие фундаментальных дисциплин вроде матана (на мой взгляд, это издевательство, но матан полезен затем, что он ум в порядок приводит); в) научные проекты выполняются под руководством ведущих биоинформатиков Москвы; г) из-за обилия домашней работы студентам приходится сбиваться в стаи и думать над проблемами коллективно; д) студенты, тем не менее, пищат от восторга и просят еще биоинформатики. Набор в МШБ начнется в мае.
Летние школы
Еще один вид дополнительного образования. Из того, что знаю: для школьников есть Школа молекулярной и теоретической биологии (больше по биологии, но для будущего биоинформатика польза несомненна), для студентов и «начинающих» аспирантов — Летняя школа Института биоинформатики (ЛШБ), из зарубежных — Research Summer School in Statistical Omics (RSSSO). Если совсем кратко о тех школах, на которых я был — ЛШБ идеальна для короткого интенсивного введения в биоинформатику, RSSSO — для тех, кто уже понял, что такое вычислительная биология и хочет «прокачать» свою статистическую базу. На ЛШБ/RSSSO можно/нужно принять участие в интересных научных проектах, в ходе которых можно на короткий срок безболезненно почувствовать себя настоящим научным работником. Кроме того, замечательный способ весело провести время летом в отличной компании. ЛШБ проводится попеременно в Москве и Питере, RSSSO — в Хорватии, город Сплит. ШМТБ будет в Барселоне.
Карьера биоинформатика
Дальше начинается, собственно, карьера — уже после магистратуры можно устроиться на работу биоинформатиком (да, да, слышу возмущенные голоса, можно и после бакалавриата, и после школы, и после детского садика, но давайте сойдемся на том, что окончание магистратуры — наилучшая по многим параметрам точка отсчета). Это можно сделать как в России (база данных по вакансиям собрана на сайте blastim.ru), так и за рубежом. Второй вариант — идти получать степень кандидата наук или Ph.D. Найти аспирантуру (практически в любой стране — хоть в России, хоть в Коста-Рике) довольно просто при условии, что вы — хороший специалист. Оценки в дипломе играют роль, но не определяющую. Куда лучше — за рубеж или на Родине? Подвесим этот вопрос. Пожалуй, к тому моменту, как вы созреете для поступления в аспирантуру, вы уже сами для себя решите. Все равно в процессе обучения в аспирантуре вы, скорее всего, один или несколько раз будете стажироваться в другой стране в течение нескольких месяцев.
После Ph.D. есть уже 3 варианта:
Первый — понять, что жизнь — тлен, бросить науку совсем и уехать в Ямало-Ненецкий автономный округ разводить оленей. На этом варианте мы останавливаться не будем, поскольку с темой статьи он больше не связан (но я бы посоветовал остерегаться волков и не злить оленей, их рога выглядят довольно опасно).
Второй вариант — продолжать академическую карьеру, и третий — уходить в индустрию (множество компаний сейчас ищут специалистов соответствующего профиля). Академическая карьера подразумевает получение нескольких стажировок, которые называются, сокращенно, постдок. Зарплаты у постдоков в несколько раз выше, чем у аспирантов, но, как правило, меньше, чем зарплаты тех специалистов, что уходят в индустрию. Найти вакансию в индустрии после получения ученой степени Ph.D. и (по желанию) нескольких постдоков гораздо проще. Затем можно получить постоянную позицию научного сотрудника или попытаться создать собственную лабораторию и возглавить её. Дело это сложное и, честно говоря, о том, что происходит «за постдоком», я ничего не знаю.
Вместо заключения
Я продолжу отвечать на ваши вопросы, заданные в комментариях к этой статье. Также, если к тому будет интерес, могу рассказать про то, чем занимаюсь (изучение связей между генетической и эпигенетической вариабельностью и заболеваниями), в отдельной статье.
Об авторе: специалист, мехмат МГУ, 2013; магистр (биоинформатика), МиИТ СПбАУ, 2015; в настоящий момент — аспирант в CRG, Барселона, группа «Genomic and Epigenomic Variation in Disease».
Надеюсь, этот текст был для вас познавательным.
P.S. Перед отправкой эту статью прочитали коллеги, и заявили, что она написана излишне пессимистично. Смею уверить читателей, что, задавая эти вопросы несколько лет назад, я получал гораздо более мрачные ответы.