Хранение данных в ДНК: как поместить знания всего мира в обувную коробку?
В конце прошлого года бостонскому стартапу Catalog Technologies удалось записать отрывок в 17 000 слов из «Гамлета» Шекспира на искусственную ДНК-молекулу. После этого ученые произвели поиск по ключевым словам, что заняло у них всего несколько минут.
Конечно, скорость не выглядит впечатляющей — поисковики способны находить гигабайты информации со всего интернета за секунду. Тем не менее, именно возможность извлечения зашифрованных данных для работы с ними может стать ключевым шагом к массовому распространению технологии. Рассказываем, в чем революционный потенциал записи данных в ДНК, и какие проблемы возникли на пути ученых.
Зачем вообще нужно хранить данные в ДНК
С начала развития интернета, количество информации, который создает человек, растет в геометрической прогрессии. По некоторым прогнозам, в следующие три года общее количество цифровых данных увеличится в три раза, и достигнет 175 зетабайт (175 миллиардов терабайт). Современные технологии хранения данных — жесткие диски и магнитные ленты, не позволяют надежно и долговечно сохранить такое количество информации.
Исследователи считают, что строительство новых дата-центров с применением сегодняшних технологий не спасет человечество от переизбытка информации. Хранение данных будет становиться все более накладным, что будет тормозить развитие по всем передовым направлениям.
Одно из возможных решений — хранение данных в синтетических молекулах ДНК. Всего один грамм ДНК способен хранить в себе до 215 петабайт (215 миллионов гигабайтов) данных. Это означает, что весь существующий сегодня интернет-контент мог бы поместиться в обувную коробку.
Впервые идею хранить информацию в таком формате более 60 лет назад предложил американский физик, нобелевский лауреат и один из создателей атомной бомбы Ричард Фейнман. На тот момент идея звучала крайне футуристично —, но появившиеся в XXI веке методы создания полностью искусственной (синтетической) ДНК-молекулы сделали эту технологию реальностью.
Рынок разработок в области цифровой ДНК-памяти в прошлом году достиг $105.5 млн, и, по прогнозам, будет расти на 69,8% в год. Исследованиями в этой области занимаются технологические компании, научные институты и даже Агентство национальной безопасности США.
Основные игроки отрасли — корпорации Twist Bioscience, Catalog Technologies, Microsoft, Ansa Biotechnologies, Western Digital, Biomemory. Пока технология далека от массового производства, поэтому компании больше сотрудничают, обмениваясь опытом, а не конкурируют. В 2020 году крупнейшие разработчики и исследовательские институты объединились в Альянс хранения памяти в ДНК (DNA Data Storage Alliance), насчитывающий уже 50 участников.
Американские агентства IARPA и DARPA — исследовательские центры при Агентстве национальной безопасности и Минобороны США, также активно участвуют в разработке технологии. Помимо судбсидирования работы в научных институтах, в 2020 году IARPA запустила собственную программу под названием MIST (Молекулярное хранение информации). Под руководством разведки исследованиями занимаются ученые из Технического института Джорджии.
Часто разработчики ДНК-памяти вступают в коллаборации с исследовательскими центрами и коммерческими компаниями из других отраслей. Так, Twist Bioscience сотрудничали с Netflix, чтобы продемонстрировать возможность использования ДНК для сохранения видео. А закодировать первый эпизод сериала «Биохакеры» в нуклеотиды им помогли исследователи из Высшей технической школы в Цюрихе.
Как сохраняют данные в ДНК
Молекулы ДНК содержатся в клетках живых организмов на Земле и хранят генетическую информацию о них. Каждая молекула состоит из длинной цепочки нуклеотидов четырех видов, название которых сокращают до четырех букв: А (аденин), Т (тимин), G (гуанин) и C (циазин). Их последовательность и представляет собой четырехзначный код, в котором записана вся информация.
Эта система аналогична тому, как хранит данные компьютер — с той лишь разницей, что цифровые данные зашифрованы в виде последовательностей из нулей и единиц. Для записи информации на ДНК необходимо перевести ее из двоичной системы в четверичную, секвенировать (выстроить в цепочку), а затем перенести на искусственную или натуральную молекулу. Рассмотрим этот процесс подробнее.
Шифрование данных
Существует множество способов перевести двоичные данные в четырехзначную систему, и именно от них зависит эффективность разработки. Современные методы позволяют сжимать данные без потери качества и записывать их на ДНК-молекулу с максимальной плотностью. Например, в прошлом году, ученым из Иллинойского Института Бекмана удалось химически изменить молекулу, добавив в нее еще семь символов, помимо четырех основных. Таким образом, исследователи стали первыми, кто расширил «алфавит» ДНК, тем самым увеличив вместимость ее памяти.
Синтез и сборка ДНК
После шифрования код собирается в последовательности ДНК при помощи цепочек биологических реакций — в итоге создается искусственная ДНК-молекула. Принцип, по которому она синтезируется, похож на работу струйного принтера: закодированная информация наносится на лабораторное стекло как чернила на бумагу. Поскольку создавать короткие фрагменты намного быстрее и дешевле, чем длинные, ученые создают небольшие последовательности информации, а затем систематизируют их в единое хранилище, разбитое на блоки. Этот метод напоминает хранение данных на любом дисковом накопителе.
Хранение данных
Воздействие воды и кислорода ускоряет разложение ДНК при комнатной температуре. Поэтому для хранения ДНК используются специальные растворы, чтобы минимизировать его физический износ. Именно поэтому как правило молекулы хранятся in vitro (с лат. — «в стекле») в инертном растворе или в твердом состоянии. Тем не менее, некоторые компании сохраняют информацию in vivo — в живых организмах. Так, например, французская компания Biomemory, созданная при Сорбонском университете, использует для хранения искусственных цепочек ДНК бактерии.
Извлечение данных
Для извлечения ДНК цепи обычно используется полимеразная цепная реакция — такая же, как, например, при тестировании на COVID-19: ПЦР-тест назван так именно поэтому. При помощи ферментов нужное соединение ДНК многократно копируется до тех пор, пока его содержимое не будет видимым.
Секвенирование
Для прочтения данных с извлеченной ДНК-цепи их необходимо секвенировать — то есть определить последовательность нуклеотидов. Первоначально этот процесс проводился при помощи последовательности химических реакций и занимал много времени, но сегодня существует множество инновационных методов, оптимизирующих секвенирование. Они позволяют одновременно считывать несколько участков ДНК, что увеличивает скорость и уменьшает стоимость процесса.
Декодирование
После секвенирования данные подвергаются декодированию. Выведенная последовательность нуклеотидов переводится обратно в двоичный код и собирается в формат, поддерживаемый компьютером.
Преимущества и недостатки технологии
Потенциально у синтетической ДНК-молекулы множество преимуществ по сравнению с традиционными хранилищами данных, но есть и свои ограничения.
Преимущества
Вместимость
Главное достоинство необычной технологии — плотность хранения данных. Информация в ДНК-молекуле «утрамбована» как минимум в в 1009 раз более плотно, чем на самом компактном жестком диске.
Надо сказать, что это — именно предельная потенциальная вместимость, которая пока не достигнута. Плотность данных, которой достигают разработчики, постоянно растет. Так, механика, с помощью которой в 2012 году была сделана первая запись на молекулу ДНК, позволяла хранить информацию с плотностью 1,28 петабайт на грамм. Современные технологии шифрования позволяют достигать примерно в сто раз лучшего результата — то есть около половины от предельной плотности.
Долгосрочность хранения
Химический состав ДНК-молекулы остается стабильным в течение десятков тысяч лет: ученые расшифровывают ДНК-данные из останков живых организмов, существовавших задолго до возникновения человеческой цивилизации. ДНК может оставаться неповрежденной в течение многих эпох — недавно ученые извлекли геном из зубов сибирского мамонта возрастом в миллион лет.
Для большей сохранности информации молекулы следует хранить при низкой температуре. Так, при температуре в 9°C молекула сохранится около 2 000 лет, а при -18°C — уже 2 000 столетий. Для сравнения, один из самых надежных методов хранения — магнитные ленты, при правильном обращении исправно функционируют около 30 лет.
Постоянство
У развития цифровых технологий есть оборотная сторона: они быстро устаревают. Это вызывает проблемы с доступом к информации, записанным на предыдущие поколения устройств. Так, чтобы прочитать данные с дискеты, записанные всего 30 лет назад, придется сильно постараться, чтобы найти подходящий дисковод.
В то же время строение молекулы ДНК не меняется уже 3 млрд лет. Это означает, что такому методу хранения не грозит устаревание, а человечество с большой вероятностью всегда сможет расшифровать записанные данные. ДНК-хранилище через сотни лет будет устроено примерно так же, как и сегодня.
Экологичность
Современные сервера оставляют огромный углеродный след. Количество производимого ими СО2 сравнимо с тем, который оставляют все коммерческие самолеты мира. В отличие от серверов, молекулы ДНК функционируют без электричества, поэтому такое хранение данных способно значительно сократить урон экологии.
Недостатки — и как их можно решить
Несмотря на то, что заголовки научных изданий прочат ДНК-памяти большое будущее, речи о массовом применении технологии пока не идет. На это есть две основные причины: высокая цена и низкая скорость загрузки и выгрузки данных.
Дороговизна
Хранение информации в ДНК сегодня — непомерно дорогое. Текущая стоимость загрузки одного мегабайта — около $1. Компании, конечно, активно работают над ее снижением. Так, например, перспективная, но пока не воплощенная в жизнь многослойная модель ДНК-хранилища от французского стартапа Biomemory позволит снизить стоимость до $1 за терабайт (то есть в 1 млн раз).
При этом самой дорогой составляющей технологии, по мнению ученых, остается синтез самой искусственной ДНК-молекулы.
Хорошая новость в том, что в развитии и удешевлении технологии синтеза ДНК заинтересованы далеко не только те, кто хочет хранить в ней данные. Последние 20 лет она развивается как самостоятельная отрасль и имеет огромное значение для биологии, медицины и генетики. На основе таких молекул создаются полезные бактерии, вакцины и биологическое топливо.
Развитие технологий приводит к тому, что стоимость создания ДНК-молекулы уменьшается. За последние 30 лет оно подешевело в 10 миллионов раз. Возможно не за горами момент, когда цена станет достаточно низкой для массового производства.
Другой способ решения проблемы с дороговизной — использование натуральных ДНК-молекул вместо искусственных. Именно это сделали ученые из Гарвардского университета в 2017 году, записав короткую анимацию на ДНК живых бактерий. Для записи использовался механизм CRISPR, который позволяет бактериям вырабатывать иммунитет, накапливая память о встреченных вирусах. Но есть серьезная проблема — в отличие от синтезированной, натуральная молекула ДНК склонна к мутации, что сильно снижает надежность хранения данных.
Низкая скорость загрузки
Вторая слабая сторона всех текущих разработок связана с первой: при высокой стоимости у технологии крайне низкая скорость работы.
В 2021 году ученым из Технологического исследовательского института Джорджии удалось создать прототип ДНК-чипа, потенциально способного параллельно записывать до 20 Гб данных в день благодаря одновременному созданию нескольких цепочек. Но пока его работа недостаточно стабильна.
Низкая скорость поиска и выгрузки
Большинство цифровых данных предполагают постоянный доступ к ним. Низкая скорость поиска и выгрузки данных на ДНК-носителе делает работу с ними крайне неэффективной.
Этот вызов пытаются преодолеть компания Catalog, с которой мы начали статью. Ее особенность в быстрой системе поиска данных по ключевым словам. Для поиска данных в записанном учеными отрывке из «Гамлета» в 17 000 слов системе понадобилось всего несколько минут.
Этот показатель не кажется высоким, но все дело в самом принципе. Разработанный химический метод позволяет сразу осуществлять поиск в том участке, где содержится нужная информация, не анализируя структуру целиком. Ученые уверяют, что в будущем этот метод ускорится примерно в тысячу раз.
Недостающая компактность
Устройства для записи и считывания информации с ДНК совсем не так компактны, как сами молекулы. Так, разработка Catalog под названием Shannon, как говорят ее создатели, занимает объем среднестатистической кухни. Для решения проблемы ученые объединили усилия с компанией Seagate, лидером в сфере современных систем хранения. По словам технического директора Catalog Дэвида Турека, совместно они будут стремиться уменьшить объем в тысячу раз. Конечная цель — создать «лабораторию на чипе», содержащую десятки резервуаров для хранения молекул ДНК.
Сами разработчики настроены оптимистично. «Мы не видим никаких радикальных препятствий для успеха этой технологии», — говорит Адам Мейер, старший научный сотрудник Гарварда. В пример он приводит магнитную ленту для хранения данных, которая совершенствовалась в течение 60 лет, прежде чем стать передовым способом хранения информации. Ученый считает, что вместе с инвестициями IARPA его команда сможет сделать технологию ДНК-хранения конкурентоспособной.
О сервисе Онлайн Патент
Онлайн Патент — цифровая система №1 в рейтинге Роспатента. С 2013 года мы создаем уникальные LegalTech-решения для защиты и управления интеллектуальной собственностью. Зарегистрируйтесь в сервисе Онлайн-Патент и получите доступ к следующим услугам:
Онлайн-регистрация программ, патентов на изобретение, товарных знаков, промышленного дизайна;
Подача заявки на внесение в реестр отечественного ПО;
Опции ускоренного оформления услуг;
Бесплатный поиск по базам патентов, программ, товарных знаков;
Мониторинги новых заявок по критериям;
Онлайн-поддержку специалистов.
Больше статей, аналитики от экспертов и полезной информации о интеллектуальной собственности в России и мире ищите в нашем Телеграм-канале.
Получите скидку в 2000 рублей на первый заказ. Подробнее в закрепленном посте.