[Перевод] Новый подход к построению древа жизни
Когда британский морфолог Джордж Джексон Миварт [St. George Jackson Mivart] опубликовал в 1865 году одно из первых эволюционных деревьев, ему недоставало опорного материала. Он построил дерево — ветвящуюся карту различных видов приматов — при помощи детального анализа позвоночников животных. Второе дерево, созданное на основе сравнения конечностей животных, показывало другие родственные связи между приматами, осветив проблему эволюционной биологии, существующую и по сей день.
Почти 150 лет спустя учёные обзавелись горами данных для построения так называемых филогенетических деревьев, современной версии созданной Мивартом структуры. Достижения в технологии расшифровки ДНК и биоинформатике позволяют сравнивать последовательности сотен генов, а иногда и целые геномы, у разных видов, и создавать древа жизни с большей детализацией, чем это когда-либо было возможно.
Историческое древо жизни от 1866 года описывает царства растений, животных и одноклеточных
Но хотя обилие данных помогло разрешить некоторые из конфликтов, возникших по поводу разных участков эволюционного древа, оно принесло и новые трудности. Сегодняшняя версия древа жизни больше похоже на спорную страницу Википедии, чем на опубликованную книгу — о некоторых ветвях постоянно идут споры. Точно так же, как позвоночник и конечности привели к появлению противоречивых карт эволюции приматов, сейчас учёные знают, что разные гены в одном и том же организме могут рассказывать разные истории.
Согласно новому исследованию, частично основанному на изучении дрожжей, спорная картинка, рисуемая отдельными генами, оказывается ещё противоречивее, чем ожидалось. «Утверждают, что каждый из 1070 генов участвует в каком-либо конфликте», — говорит Майкл Доногью [Michael Donoghue], биолог-эволюционист из Йельского университета, не связанный с исследованием. «Мы пытаемся разобраться в филогенетических связях 1,8 млн видов, а сами не можем рассортировать двадцать типов дрожжей», — говорит он.
Для разрешения парадокса исследователи разработали алгоритм на основе теории информации для измерения уровня уверенности в правильности отдельных частей древа. Они надеются, что новый подход поможет внести ясность в периоды эволюции, обладающие как наиболее интересными и полезными, так и наиболее конфликтными данными — например, кембрийский взрыв — быстрая диверсификация животной жизни, случившаяся 540 млн лет назад.
«Исторически, с областями, привлекавшими внимание и вызывавшими разногласия, связаны и самые интересные эпизоды», такие, как происхождение животных, позвоночных и цветущих растений, говорит Антонис Рокас, биолог из Университета Вандербильта, руководивший новым исследованием.
На основании результатов работы нового алгоритма учёные могут выбрать только самые информативные гены для постройки филогенетических деревьев. Такой подход может сделать процесс как более точным, так и эффективным. «Думаю, он поможет ускорить реконструкцию древа жизни», — говорит Хидир Хилу [Khidir Hilu], биолог из Виргинского технологического института.
Кирпичики жизни
Основа филогенетических деревьев создаётся через группирование видов по их степени родства. Если сравнить ДНК людей, шимпанзе и рыбы, становится ясно, что люди и шимпанзе ближе друг к другу, чем к рыбам.
Когда-то исследователи использовали один или несколько генов для сравнения организмов. Но в последнее десятилетие произошел взрыв филогенетических данных, очень быстро наполнивший базы, необходимые для создания этих деревьев. Анализ позволил заполнить несколько из разбросанных по древу белых пятен, но серьёзные разногласия всё ещё существуют.
К примеру, пока неясно, кто ближе по родству улиткам — двустворчатые моллюски или же лопатоногие моллюски, говорит Рокас. Неизвестно, как именно связаны между собой одни из самых ранних ответвлений животных от дерева, такие, как медузы и губки. Учёные могут демонстрировать примеры конфликтующих деревьев, появляющиеся в одних и тех же научных журналах с разницей в недели, или даже в одном и том же номере.
«Отсюда вопрос: почему нам так сложно договориться?» — говорит Рокас.
Рокас со своим аспирантом Леонидасом Саличосом [Leonidas Salichos] изучали этот вопрос, оценивая гены по отдельности, используя при этом самые полезные гены — переносящие больше всего информации, относящейся к эволюционной истории — для построения своей версии древа.
Они начали с 23 видов дрожжей и выбрали 1070 генов. Для начала они создали филогенетическое дерево стандартным способом, конкатенацией. Для этого все последовательности от отдельных видов собираются вместе в один мегаген, и затем с этой длинной последовательностью сравниваются последовательности отдельных видов, на основании чего создаётся дерево, наилучшим образом объясняющее различия.
Результирующее дерево получается точным с точки зрения стандартного статистического анализа. Но поскольку схожие методы приводят к появлению деревьев, изобилующих разногласиями, Рокас и Саличос решили углубиться в тему. Они построили наборы филогенетических деревьев для отдельных генов дрожжей, и применили алгоритм, разработанный с использованием теории информации, для поиска областей наибольшего соответствия между разными деревьями. Результат, опубликованный в журнале Nature в мае, получился неожиданным. Кажется, что каждый изученный ген рассказывает немного отличную от других историю эволюции.
«Практически все деревья, построенные для отдельных генов, конфликтовали с деревом, основанном на конкатенации данных, — говорит Хилу. — Это шокирует».
Они заключили, что если несколько генов поддерживают определённую архитектуру, то именно она и должна быть точной. Но если разные наборы генов одинаково поддерживают две разные архитектуры, тогда вероятность их точного соответствия реальности уменьшается. Рокас и Саличос использовали метод под названием статистический бутстрэп для выбора наиболее информативных генов.
По сути, «если брать только гены с активной поддержкой, то вы получите верное дерево», — говорит Доногью.
Пересмотренное дерево совпадало с деревом, построенным на альтернативном источнике эволюционной информации — крупномасштабных изменениях в отрезках ДНК, передающихся из поколения в поколение — что обосновало их исследования.
Открытия не ограничивались дрожжами. Применяя тот же анализ к более крупным и сложным формам жизни, включая генетические данные позвоночных и животных, они находили серьёзные конфликты между отдельными генами.
Некоторым исследователям надо привыкнуть к идее выборочного исключения данных из анализа. «Много лет главнейшей проблемой людей, пытающихся понять взаимоотношения организмов, была проблема набора достаточного количества данных, — говорит Джефри Таунсенд, биолог-эволюционист из Йельского Университета, не связанный с исследованием. — Сообществу всегда твердили о необходимости набора данных, поэтому неудивительно, что они подходили к задаче именно так».
Хотя биологи-эволюционисты сражались с этими проблемами годами, новое исследование стало крупнейшей на сегодня попыткой изучить уровень конфликта отдельных генов. «У людей будет две реакции: конфликтов больше, чем я думал, и нам нужно научиться лучше их анализировать», — говорит Донагью, желающий применить новый метод в своей работе. Однако он указывает и на трудности с подтверждением точности нового подхода. Хотя пересмотренное древо совпадает с тем, что построено на альтернативной генетической информации, в последнем могут обнаружится собственные несоответствия. «Не уверен, что мы знаем, каковы взаимоотношения на самом деле, — говорит он. — А если мы не уверены в истинном положении вещей, мы не знаем, получили ли мы правильное дерево».
Меняющаяся картинка
Исследователям необходимо применять новую технику более широко, чтобы увидеть, как она может изменить представление об эволюции. Однако Рокас и Саличос уже показали, что сложнее всего реконструировать короткие ветви древа, или «кустистые» его части, представляющие периоды быстрого видообразования — особенно находящиеся ближе к основанию древа и глубоко в эволюционной истории.
«Теоретические изыскания предсказывали такое поведение, но наше исследование впервые демонстрирует подтверждение при помощи экспериментальных данных», — сказал Рокас.
Рокас утверждает, что новые открытия изменят то, как исследователи интерпретируют нечётко оформленные части дерева. «Биологи-эволюционисты обычно предполагают, что если в дереве нет нужной детализации, значит, оно неправильное. А следовательно, если мы соберём побольше данных и составим алгоритмы получше, тогда мы придём к правильному дереву», — говорит он. Но наличие конфликтующих частей дерева, сохраняющихся, несмотря на потоки данных и на применение нового типа анализа, может говорить о наличии кустистых частей. «Думаю, в некоторых случаях алгоритм сможет разрешить этот конфликт, а в других — отметить области конфликта, которые мы вряд ли когда-либо сможем разрешить».
Изучение этих кустистых частей древа может дать новый взгляд на особенно интересные этапы эволюции, например, на кембрийский взрыв, когда жизнь перешла от преобладания простых организмов к разномастному набору видов животных.
Другие учёные соглашаются, что открытия могут повлиять на то, как специалисты справляются с противоречивыми представлениями об эволюции. «Думаю, это предвестник сдвига парадигмы, — сказал Таунсенд. — Если мы используем подходящие методы, у нас появляется возможность узнать больше о вопросах, мучавших нас уже долгое время».
Таунсенд, разработавший собственный метод выбора наиболее информативных генов на основе скорости их эволюции, отмечает, что не все члены научного сообщества соглашаются с необходимостью в новых подходах. «Надеюсь, эта работа поможет выдвинуть эту проблему на передний план», — сказал он.
Выбор подходящего количества генов для построения прототипов филогенетических деревьев — не единственный вопрос, мучающий биологов-эволюционистов. Им необходимо также договориться о том, какое количество видов включать в обработку — чем больше в дереве видов, тем сложнее анализ. Результаты также могут отличаться из-за различий в качестве данных, собранных по разным видам. «Если нам нужно получить истинную эволюционную историю того, как всё связано друг с другом, то что для этого лучше — собирать больше генов или больше видов? — говорит Доногью. — Думаю, и то и другое».
Новые подходы, позволяющие исследователям получать точные результаты с использованием меньшего количества генов могут позволить расширить эволюционное древо. Возможность выбирать только самые информативные из генов может сделать процесс более эффективным, и позволить учёным создавать точные деревья с использованием меньшего количества данных и ресурсов. «Если бы могли выбрать несколько генов и получить такое же хорошее дерево, как с помощью всего генома, — говорит Хилу, — мы могли бы построить гораздо более детальное древо жизни — на уровне генов, или даже на уровне видов — вместо того, чтобы довольствоваться скелетом из наиболее важных ответвлений».