Пятничный формат: ДНК и решение проблемы хранения данных

4462f033798448f4b6fa4b32bdf3ef4b.jpg

По мнению сотрудников компании Backblaze, которая не так давно провела эксперимент по вычислению длительности работы жестких дисков, некоторые HDD способны хранить информацию без повреждений порядка 10 лет — не так уж и много.

К сожалению, современные запоминающие устройства не могут служить вечно. Именно поэтому исследователи стараются найти способ, позволяющий хранить данные как можно дольше — в идеале несколько миллионов лет.

Вечный накопитель


Исследователи из Швейцарской высшей технической школы Цюриха считают, что ответ может лежать в ДНК. По словам Питера Шэндболта (Peter Shandbolt), написавшего материал о перспективах хранения данных для блога CNN, структура нитей ДНК сложна и в то же время компактна, так что «один грамм ДНК теоретически способен вместить все данные таких крупных компаний, как Google и Facebook, причем даже с запасом».

Говоря техническим языком, в одном грамме ДНК может храниться до 455 экзабайтов информации, где один экзабайт равен миллиарду гигабайтов.

Процесс синтеза последовательности ДНК похож на нанизывание жемчуга на нитку. В этом случае информация кодируется в виде традиционных нулей и единиц.

Эти значения присваиваются определенным химическим компонентам, мономерам, которые при помощи химических методов сцепляются в одну цепь, образуя полимеры. Чтобы прочитать записанную информацию, достаточно воспользоваться масс-спектрометром — устройством для считывания ДНК-последовательности.

e319dd0009954c98aab2ce5815f4a123.jpg

Знаменитая двойная спираль ДНК

«Ископаемые» данные


Информация о геноме живого организма может достаточно долго сохраняться в окаменелостях: так был расшифрован геном полярного медведя, жившего 110 000 лет назад, и геном лошади, возраст которой составляет 700 000 лет.

По словам представителей Швейцарской высшей технической школы Цюриха (ETH Zurich), они хотят «совместить возможности хранения на ДНК большого объема данных со стабильностью ДНК, обнаруженных в ископаемых останках».

«Мы отыскали необычные способы работы с ДНК, позволяющие сделать ее достаточно стабильной, — сообщает Роберт Грасс, преподаватель кафедры химии и прикладных биологических наук ETH Zurich, в интервью CNN. — Мы хотели связать воедино возможности ДНК, а именно высокую емкость хранения данных и ее археологические особенности».


Таким образом, процесс хранения информации будет выглядеть так: ДНК, заключенная в стеклянную оболочку (инертную и нейтральную среду), хранится при низкой температуре и в сухом состоянии (на ДНК негативно влияют вода и кислород).

В таких условиях информация в её нитях может оставаться неповреждённой на протяжении нескольких тысяч лет.

«Мы смогли добиться того, что созданная нами ДНК с сохраненной на ней информацией распадается с такой же скоростью, что и ДНК, найденная в окаменелостях. Если так пойдет дальше, вскоре у нас появится возможность сохранить данные на срок до миллиона лет».


Первые результаты


Для проверки того, как долго данные могут хранится в ДНК, ученые закодировали 83 килобайта данных.

Материалом послужили Швейцарский Федеральный устав от 1291 года и палимпсест Архимеда. Выбор этих документов, по мнению ученых, показывает не только потенциальную применимость метода, но и его историческую важность. По оценкам представителей ETH Zurich, эти данные останутся неизменными от 10 000 до миллиона лет (если ДНК подвергнется заморозке).

Если говорить о количестве информации, то Джордж Черч (George Church), профессор генетики из института Вайса (Гарвард), поставил все предыдущие рекорды по количеству записанных данных в ДНК на колени, ему с коллегами удалось добиться плотности записи в 5,5 петабитов (около 700 терабайт) на кубический миллиметр жидкости — он создал 70 миллиардов копий своей книги по генетике. Для современных электронных носителей такие показатели пока являются недостижимыми.

Однако, как и всегда, в работе с ДНК-хранилищами есть свои сложности, например стоимость шифрования данных. Однако исследователи уверены, что по мере развития медицинских технологий, она будет снижаться.

«Раньше стоимость расшифровки генома человека составляла несколько миллионов долларов. Сегодня ее можно провести за несколько сотен долларов, — заявляет Грасс. — Новые технологии для проведения медицинского и геномного анализа можно будет вскоре внедрить и в мир IT».


Но самым большим препятствием, которое пока еще не позволяет использовать ДНК для хранения информации на практике, является время.

Даже с использованием современных технологий расшифровки, чтение молекулы ДНК занимает многие часы — на несколько порядков больше, чем чтение обычного файла на компьютере. Потому этот тип хранилищ не подходит для часто используемых данных.

Однако они отлично подойдут на роль надежных долговременных хранилищ — например, это отличный вариант для создания «капсул времени».

P.S. Материалы по теме из нашего блога:

© Habrahabr.ru