IaaS и наука: Как это работает. Часть 2
/ фото Matteo Bagnoli CC
В прошлый раз мы начали рассказывать о влиянии IaaS-технологий на различные научные сферы деятельности. Добро пожаловать во вторую часть поста, где мы поговорим о том, как облачные вычисления помогают проводить исследования в биологии, генетике, географии и медицине.
Биология и генетика
Одним из первых и самых известных случаев применения облачных распределенных вычислений можно считать проект «Геном человека», завершенный в 2003 году. Его целью было определение последовательности молекул ДНК и идентификация 25 тыс. индивидуальных генов.
Генетическая информация, собранная в ходе проекта, хранится в базах данных — это уникальный источник знаний, анализируемый учеными мира до сих пор. Национальный центр биотехнологической информации США и его партнёрские организации в Европе и Японии хранят геномные последовательности в базе данных GenBank, японской базе данных ДНК (DDBJ) или европейской EMBL. Они надеются, что эта информация поможет сделать новые открытия в сферах генетики и биоинженерии.
Для поддержания их работы требуется большое количество вычислительных ресурсов. Поэтому не удивительно, что появилась необходимость в изменении технических подходов. Сообщество обратилось к облачным технологиям.
Главной особенностью облачных технологий, имеющей значение для геномной информатики, является способность хранения огромных сводов данных в облаке. Данные записываются на виртуальные диски, которые можно подключать к виртуальным машинам как обычные хранилища. На сегодняшний день вся база данных GenBank хранится в виде образов дисков, которые пользователи загружают и выгружают по желанию.
Облачные вычисления также сказались на работе разработчиков приложений, имеющих отношение к генной инженерии. Они получили возможность представлять свои продукты в форме виртуальных машин. Например, многие группы, занимающиеся аннотацией генов, разработали собственные процессы для идентификации и классификации генов и других функциональных элементов. К примеру, Калифорнийский Университет в Санта-Круз и Ensembl занимаются поддержкой данных и аннотаций, а также инструментов для визуализации и поиска в базах геномных последовательностей.
Несмотря на то что многие из разработанных инструментов оставались открытыми, ученые испытывали некоторые затруднения при передаче их другим исследовательским группам. Это в первую очередь было связано с различиями в конфигурациях программ и настройках отдельных сайтов. Облако позволило «упаковать» созданные приложения в образы виртуальных машин — в таком виде их легко передавать, настраивать и запускать, обходя стороной процесс установки ПО.
Виртуализация изолирует пользователей от инфраструктуры и обеспечивает гибкость в достижении целей. IaaS предлагает полнофункциональную компьютерную инфраструктуру, предоставляя все виды виртуализированных ресурсов. В качестве примера IaaS в среде биоинформатики можно привести разработку BioLinux — публичную ВМ для высокопроизводительных вычислений — и CLoVR — портативную ВМ для проведения автоматического секвенирования.
География
Географические информационные системы (ГИС) — это набор инструментов, собирающих, хранящих, анализирующих, управляющих и формализующих данные, связанные с географическим положением. ГИС играют важную роль во многих сферах деятельности и представляют собой «сплав» картографии, статистического анализа, аппаратного и программного обеспечения.
Для управления данными используются различные способы группировки и преобразования, например, приведение геоданных к единому масштабу. Для их хранения используются реляционные БД с технологиями создания отчетов.
ГИС позволяют производить запрос и анализ разной сложности: от простого поиска объектов на карте, до поиска данных по сложным шаблонам, например, выделение населенных пунктов, попадающих в зону поражения в случае аварии на АЭС.
Традиционным результатом обработки, анализа и отображения пространственных географических данных является карта, которая дополняется отчетными документами, рельефными цветными изображениями реальных и смоделированных объектов, фотографиями, графиками, диаграммами.
Помимо этого, современные ГИС имеют большое количество специальных функций, призванных облегчить жизнь пользователей. Часть из них применяется в том числе в навигационных системах: поиск кратчайшего пути, прокладка маршрута и т. д.
ГИС часто используется для принятия взвешенных решений на основании геопространственных данных. Облачная реализация открыла для исследователей и ИТ-организаций, пользующихся географическими информационными системами, новые горизонты.
Облачные системы ГИС предлагают надежные инструменты, реализующие методы геоинформатики, и мощные программно-аппаратные средства: географические серверы с открытым доступом, устройства для формирования электронных карт и алгоритмы многофакторного анализа. Более того, использование облачных технологий позволяет оптимизировать процесс создания локальных ГИС.
В этом случае у компании нет необходимости создавать сервисный центр и покупать собственное дорогостоящее оборудование и, следовательно, не нужно содержать обсуживающий ИТ-персонал. Также отпадает необходимость в покупке космических снимков и карт от сторонних разработчиков за счет подключения таких сервисов, как Google Maps и Bing Maps.
Все эти преимущества способствуют массовому переходу на облачные технологии в среде ГИС. Такие организации, как ESRI и GIS Cloud Ltd, уже осуществили переход на облачные вычисления, предлагая пользователям геоинформационные системы по требованию.
Медицина и фармакология
Свое применение облачные технологии нашли и в медицине. Например, широкое распространение в мире получили так называемые электронные медицинские карты. Электронная медицинская карта (ЭМК) хранит все необходимые данные о пациентах в цифровом формате на защищенных удаленных серверах.
Благодаря этому облегчается обработка персональных данных пациентов, оптимизируются бизнес-процессы: все медицинские учреждения получают доступ к истории болезни человека, что избавляет последнего от необходимости заводить карты в каждой поликлинике.
По результатам опроса, проведенного компанией Accenture среди 3700 врачей восьми стран мира, 70,9% респондентов считают, что информационные технологии в медицине повышают качество проводимых клинических исследований, а 69,1% отметили повышение качества медицинского обслуживания и сокращение числа врачебных ошибок. И это похоже на правду. В больницах США, где внедрены ЭМК, на лечение пациента, увезенного на скорой, уходит гораздо меньше времени.
Подобные тенденции наблюдаются и в Европе. В провинции Андалусия работает глобальная медицинская информационная система DIRAYA, построенная на инфраструктуре Oracle. К этой системе обращаются все медицинские учреждения, получая необходимую информацию о пациентах и актуальные данные о ходе лечения и назначенных лекарствах.
Кстати о лекарствах. По данным исследования компании Accenture, все большее число компаний, занятых в химической промышленности, начинают адаптировать облачные технологии. В качестве примера стоит привести приложение для QSAR-моделирования Cyprotex, которое используется для автоматизации принятия решений и формирования предсказательных моделей. Его цель — создание лучших и безопасных лекарств и снижение необходимости их тестирования на животных.
Поиск количественных соотношений структура-свойство (QSAR) основан на применении методов математической статистики и машинного обучения для построения моделей, позволяющих по описанию структур химических соединений предсказывать их физические и химические свойства.
К сожалению, создание новой модели — дело ресурсоёмкое, потому химикам приходилось долгое время ожидать результатов обработки. Облачные технологии революционизировали использование QSAR, сократив время генерации предсказательных моделей.
На этом все. Облачные сервисы за последние несколько лет проникли во многие сферы жизни и бизнеса, используются небольшими и крупными компаниями. В этой серии постов мы постарались рассмотреть наиболее интересные области и примеры того, как облачные технологии помогают проводить научные исследования.