Хостинг файлов в ДНК — что нового?22.11.2021 11:46

Сложно представить накопители в наших компьютерах через тысячу лет. Субатомные, фотонные, гравитонные носители? Поля чистой энергии? Кто знает…

Однако уже сейчас есть элементарный носитель, близкий нам в прямом смысле — простые молекулы ДНК. Исследователи уже несколько десятилетий работают над записью информации в ДНК, здесь ничего нового. Стандартный способ записи — синтез нуклеотидных цепочек (A, T, C, G), а чтение производится путём секвенирования. Недавно разработан альтернативный подход: чтение оптическим способом. Прогресс в этой области нешуточный.

Преимущества ДНК

Молекулы ДНК (дезоксирибонуклеиновой кислоты) — великолепный материал для цифровой памяти. Физически это длинная макромолекула, которая состоит из четырёх повторяющихся блоков (нуклеотидов) — именно их мы используем для кодирования данных.

Макромолекула сворачивается в форму двойной спирали и выглядит довольно красиво, особенно с учётом её значения как носителя генетической информации, то есть эссенции жизни.

Фантастическая информационная плотность (215 петабайт на грамм), длительный срок хранения информации и низкое энергопотребление — преимущества таких «накопителей» на практике. Стоимость синтеза и секвенирования ДНК снижается быстрыми темпами. Рост производительности синтеза и секвенирования опережает закон Мура. Это стимулирует инновации в разработке технологий так называемой нуклеотидной памяти. Также стоит отметить и стабильность такого варианта хранения информации, учитывая плотность, так как отсутствует потеря данных при записи.

Перспективная технология

Над технологиями синтеза и секвенирования, улучшением алгоритмов чтения/записи и коррекции ошибок работают десятки научных коллективов по всему миру.

Например, оригинальная технология ферментного синтеза предполагает использование ферментов TdT и AP для добавления и удаления нуклеотидов тремя способами. Здесь трёхбитная система, потому что нуклеотид C не появляется.

Другие исследователи специализируются на оптимизации алгоритмов коррекции ошибок. Авторы этой работы закодировали и записали в ДНК 35 файлов общим размером 200,2 МБ (в сжатом виде), а затем прочитали их без ошибок.

Уже готовы программные решения для архивных систем в ДНК. Например, вот база данных «ключ-значение».

Давно разработана технология для внедрения синтезированной ДНК в геном живой клетки (CRISPR).

Таким образом, запись файлов в ДНК — вполне реальная возможность. По сути, эту технологию уже можно использовать в продакшене. Скорее всего, первые автоматические коммерческие установки для записи/чтения больших объёмов информации в ДНК появятся в ближайшие годы.

Альтернативный подход

Отдельно стоит упомянуть самую последнюю инновацию в этой области — технологию так называемой «цифровой нуклеотидной памяти» (digital Nucleic Acid Memory, dNAM). Научная статья «Альтернативный подход к нуклеотидной памяти» опубликована в журнале Nature Communications совсем недавно — 22 апреля 2021 года.

Идея состоит в том, что запись информации производится своеобразными пегами из ДНК на пегборде, а чтение — с помощью микроскопа. То есть не требуется секвенирование. Созданный учёными прототип сохраняет информацию в виде паттернов, используя нити ДНК, расположенные на расстоянии около 10 нанометров друг от друга.

Пегборд из игры Lite-Brite

Тут аналогия с детской игрой Lite-Brite. Пегборд в игре представляет собой световой короб с маленькими цветными пластиковыми «прищепками» (пегами), которые вставляются в панель и светятся, создавая освещённую картинку, либо используя один из прилагаемых шаблонов, либо создавая изображение «свободной формы» на чистом листе чёрной бумаги.

Поэтому в научной работе и упоминается термин «пегборд».

Предыдущие методы получения данных из ДНК требовали секвенирования. Секвенирование — это процесс считывания нуклеотидной последовательности нитей ДНК. Довольно трудоёмкая процедура. Генетический материал распределяют по пробиркам, туда добавляют формамид, проводят электрофорез, а на последнем этапе — радиоавтографию, которая и определяет последовательность нуклеотидов.

Хотя это мощный инструмент в медицине и биологии, он не подходит для высокопроизводительной и скоростной работы. То есть не оптимален для считывания цифровой информации из ДНК.

Здесь же информация считывается с помощью микроскопа оптическим способом. Поскольку пеги ДНК расположены ближе, чем половина длины волны видимого света, учёные использовали микроскопию сверхвысокого разрешения, которая обходит дифракционный предел света. В данном случае используется микроскопия сверхвысокого разрешения типа DNA-PAINT.

В левой колонке паттерны для кодирования данных, в средней колонке — результат оптического считывания данных, хранящихся в ДНК, а в правой колонке — изображения наноструктур ДНК, полученные с помощью атомно-силового микроскопа. Размер каждого пегборда 6 × 8 составляет примерно 70 × 90 нанометров

Паттерны из нитей ДНК (пеги) светятся, когда с ними связывается флуоресцентно меченая ДНК. Поскольку флуоресцентные нити короткие, они быстро связываются и расцепляются. Это заставляет их мигать, так что их проще различить — и считать информацию. Светящиеся паттерны каждого пегборда — это код для хранения фрагментов данных.

(a) Тестовое сообщение закодировано в 15 пегбордов dNAM. Для наглядности на рисунке (b) показана одна из 15 конструкций. Цвета областей данных соответствуют их битовым значениям. Справа на (d) видны реальные нити данных

В результате эксперимента сообщение было успешно прочитано. Алгоритм декодирования выполнил коррекцию ошибок и успешно восстановил сообщение (синие квадратики на иллюстрации (g) указывают на исправленные ошибки).

Микроскоп может зафиксировать сотни тысяч ДНК-пегов с одного изображения. Данный прототип смог считать данные с плотностью 330 гигабит на квадратный сантиметр (для сравнения, на самой продвинутой магнитной плёнке плотность записи составляет около 31 гигабита на см²). А вообще, теоретически расстояние между точками в 10 нанометров соответствует плотности примерно 1 тыс. Гбит на см², просто две трети точек выделено под индексы и коррекцию ошибок (см. ниже).

Но даже 330 гигабит на квадратный сантиметр — это огромная цифра. Если мы не ошибаемся в расчётах, то с заявленной информационной плотностью на странице А4 размером 21×30 см поместится 0,33×8*21×30=1663,2 терабайта, то есть 1,66 петабайта! Под микроскопом закодированная информация выглядит примерно так:

Цветом помечены полезные данные (зелёный), биты чётности (синий), контрольная сумма (жёлтый), индекс (красный) и биты ориентации (фиолетовый). Расстояние между нитями ДНК на пегборде около 10 нанометров

Учёные надеются в будущем увеличить объём данных, которые можно хранить в dNAM, уменьшить время, необходимое для записи и чтения, а также улучшить кодирование данных. «Можно увеличить ареальную плотность dNAM, разместив домен данных на каждом витке спирали ДНК (расстояние между витками ~3,5 нм)», — сказано в научной работе.

Применение

ДНК отлично подходит для долговременного хранения большого количества файлов. Вся информация в мире (порядка 100 зеттабайт, то есть примерно 100×10²¹ байт) поместится в маленькой шкатулке на вашем столе. При этом информация в ДНК может храниться веками: период распада молекулы ДНК превышает 500 лет. Правда, время доступа к файлам при стандартных технологиях секвенирования — десятки часов.

Примечание. Геном человека занимает 3,3 ГБ, домовой мыши — 2,7 ГБ, гриба — 30 МБ, вирусы обычно укладываются в несколько килобайт.

Альтернативный вариант dNAM имеет немного другую сферу применения. Эта технология скорее нацелена на варианты с ограниченным количеством информации, но высокой информационной плотностью. То есть «напечатать» на листе 1–2 петабайта данных, а потом относительно быстро их прочитать. Понятно, что это уже иная область использования.

Плюсы:

Крайне малое место для хранения данных (помним про шкатулку).
Сохранение данных в течение долгого срока.

Минусы:

Дороговизна процесса записи.
Долгий процесс считывания информации.

Общий вывод: Технология только-только начинает развиваться. Скорее всего, такой формат записи данных будет использоваться только в научных исследованиях и каких-нибудь специфических приложениях, связанных с биотехнологиями, ну или какими-нибудь крайне богатыми, но эксцентричными людьми. Если вам когда-нибудь захочется сделать себе ДНК-флешку, знайте, чтобы заплатить за 1 МБ данных, вам придётся выложить около 3,5 тысяч $. Не очень приятная стоимость, если вы хотите организовать семейный фотоархив :) Но, несмотря на это, плотность записи позволяет решить задачу поистине мировых масштабов, при помощи такой технологии можно сделать архив всей информации, которую накопил человек за время своего длительного существования.

Ранее мы рассказывали, как сделать свой архив интернета, а также поднимали тему веб-сервера на старом смартфоне Android. А какие альтернативные способы хранения информации вы знаете? Пишите в комментариях.

НЛО прилетело и оставило здесь промокоды для читателей нашего блога:

— 15% на все тарифы VDS (кроме тарифа Прогрев) — HABRFIRSTVDS.

— 20% на выделенные серверы AMD Ryzen и Intel Core — HABRFIRSTDEDIC.

Доступно до 31 декабря 2021 г.