«Hello»! Первое в мире автоматическое хранилище данных в молекулах ДНК29.03.2019 02:04

Исследователи из Microsoft и Вашингтонского университета продемонстрировали первую полностью автоматизированную систему хранения данных в искусственно созданной ДНК с возможностью считывания. Это ключевой шаг на пути к переносу новой технологии из исследовательских лабораторий в коммерческие центры обработки данных.

Разработчики подтвердили концепцию с помощью простого теста: успешно закодировали слово «hello» во фрагментах синтетической молекулы ДНК и преобразовали его обратно в цифровые данные, используя полностью автоматизированную сквозную систему, которая описана в статье, опубликованной 21 марта в Nature Scientific Reports.

В молекулах ДНК можно хранить цифровую информацию с очень высокой плотностью, то есть в физическом пространстве, которое на много порядков меньше, чем занимают современные центры обработки данных. Это одно из многообещающих решений для хранения огромного количества данных, которые мир генерирует каждый день, — от деловых записей и видео с милыми животными до медицинских снимков и изображений из космоса.

Microsoft изучает способы преодоления потенциального разрыва между объемом данных, которые мы производим и хотим сохранять, и нашей способностью их хранить. В число таких способов входит разработка алгоритмов и технологий молекулярных вычислений для кодирования данных в искусственных ДНК. Это позволило бы вместить всю информацию, хранящуюся в крупном современном центре обработки данных, в пространство, примерно равное размеру нескольких игральных костей.

«Наша главная цель — запустить в эксплуатацию систему, которая для конечного пользователя будет выглядеть почти так же, как и любая другая система облачного хранения: сведения отправляются в центр обработки данных и сохраняются там, а затем просто появляются, когда понадобятся клиенту, — говорит старший исследователь Microsoft Карин Штраус. — Для этого нам нужно было доказать, что это имеет практический смысл с точки зрения автоматизации».

Информация хранится в синтетических молекулах ДНК, созданных в лаборатории, а не в ДНК людей или других живых существ, и может быть зашифрована перед отправкой в систему. Хотя сложные машины, такие как синтезаторы и секвенсоры, уже выполняют ключевые части процесса, многие из промежуточных этапов до сих пор требовали ручного труда в исследовательской лаборатории. «Это не подходит для коммерческого использования», — сказал Крис Такахаши, старший научный сотрудник Школы информатики и техники имени Пола Аллена в Университете США (Paul G. Allen School of Computer Science & Engineering).

«По центру обработки данных не могут бегать люди с пипетками, при таком подходе слишком высока вероятность человеческой ошибки, он слишком дорогой и требует слишком много места», — объяснил Такахаши.

Чтобы этот метод хранения данных имел смысл с коммерческой точки зрения, необходимо снизить затраты как на синтез ДНК — создание фундаментальных строительных блоков со значимыми последовательностями, так и на процесс секвенирования, который необходим для считывания сохраненной информации. Исследователи говорят, что в этом направлении идет стремительное развитие.

По словам исследователей из Microsoft, автоматизация — еще одна ключевая часть этой головоломки, позволяющая организовать хранение данных в коммерческом масштабе и сделать его более доступным.

При соблюдении определенных условий ДНК может существовать гораздо дольше, чем современные средства архивного хранения, которые разрушаются в течение десятилетий. Некоторым ДНК удалось сохраниться в далеких от идеала условиях в течение десятков тысяч лет — в бивнях мамонта и в костях ранних людей. Значит, данные можно хранить таким способом, пока существует человечество.

Автоматизированная система хранения данных ДНК использует программное обеспечение, разработанное специалистами Microsoft и Вашингтонского университета (UW). Оно преобразует единицы и нули цифровых данных в последовательности нуклеотидов (A, T, C и G), представляющие собой «строительные блоки» ДНК. Затем система использует недорогое, в основном стандартное, лабораторное оборудование для подачи необходимых жидкостей и реагентов в синтезатор, который собирает изготовленные фрагменты ДНК и помещает их в емкость для хранения.

Когда системе необходимо извлечь информацию, она добавляет другие химические вещества для правильной подготовки ДНК и использует микрофлюидные насосы для проталкивания жидкостей в те части системы, которые считывают последовательности молекул ДНК и преобразуют их обратно в информацию, понятную компьютеру. Исследователи говорят, что целью проекта было не доказать, что система может работать быстро или дешево, а просто показать, что автоматизация возможна.

Одно из самых очевидных преимуществ автоматизированной системы хранения ДНК заключается в том, что она освобождает ученых для решения сложных задач, позволяя не тратить время на поиск бутылок с реагентами или монотонное добавление капель жидкости в пробирки.

«Наличие автоматизированной системы для выполнения повторяющейся работы позволяет сотрудникам лабораторий заниматься непосредственно исследованиями, разрабатывать новые стратегии, чтобы внедрять инновации быстрее», — сказал исследователь из Microsoft Бихлин Нгуен.

Команда из Лаборатории молекулярных информационных систем Molecular Information Systems Lab (MISL) уже продемонстрировала, что может хранить фотографии котиков, замечательные литературные произведения, видео и архивные записи в ДНК и извлекать эти файлы без ошибок. На сегодняшний день они смогли сохранить в ДНК 1 гигабайт данных, побив предыдущий мировой рекорд в 200 Мб.

Исследователи также разработали методы для выполнения значимых вычислений, таких как поиск и извлечение только изображений, на которых есть яблоко или зеленый велосипед, используя для этого сами молекулы, без преобразования файлов обратно в цифровой формат.

«Можно с уверенностью сказать, что мы наблюдаем рождение компьютерной системы нового типа, в которой для хранения данных используются молекулы, а для управления и обработки — электроника. Такое сочетание открывает очень интересные возможности на будущее», — сказал профессор школы Аллена Вашингтонского университета Луис Сезе.

В отличие от вычислительных систем на основе кремниевых компонентов, системы хранения и вычисления на основе ДНК должны использовать жидкости для перемещения молекул. Но жидкости по своей природе отличаются от электронов и требуют совершенно новых технических решений.

Команда Вашингтонского университета в сотрудничестве с Microsoft разрабатывает также программируемую систему, которая автоматизирует лабораторные эксперименты, используя свойства электричества и воды для перемещения капель на сетке электродов. Полный набор программного и аппаратного обеспечения, получивший названия Puddle и PurpleDrop, может смешивать, разделять, нагревать или охлаждать различные жидкости и выполнять лабораторные протоколы.

Цель состоит в том, чтобы автоматизировать лабораторные эксперименты, которые в настоящее время проводятся вручную или дорогостоящими роботами, работающими с жидкостью, и сократить расходы.

Следующие шаги для команды MISL включают интеграцию простой сквозной автоматизированной системы с такими технологиями, как Purple Drop, а также с другими технологиями, которые позволяют выполнять поиск в молекулах ДНК. Исследователи специально сделали свою автоматизированную систему модульной, чтобы она могла развиваться по мере появления новых технологий для синтеза, секвенирования и работы с ДНК.

«Одно из преимуществ этой системы состоит в том, что если мы хотим заменить одну из частей чем-то новым, более совершенным или более быстрым, мы можем просто подключить новую часть, — сказал Нгуен. — Это дает нам большую гибкость на будущее».

Верхнее изображение: исследователи из Microsoft и Вашингтонского университета записали и считали слово »hello», используя первую полностью автоматизированную систему хранения данных в ДНК. Это ключевой шаг для переноса новой технологии из лабораторий в коммерческие центры обработки данных.