Toolbox для исследователей — выпуск второй: подборка из 15 тематических банков данных

Банки данных помогают делиться результатами экспериментов и измерений, играют важную роль в формировании академической среды и в процессе развития специалистов.

Расскажем как о датасетах, полученных с помощью дорогостоящего оборудования (источниками этих данных нередко являются крупные международные организации и научные программы, чаще всего связанные с естественными науками), так и о государственных банках данных.


cdu2z4wq5ehygiynjjmjpusijla.jpeg
Фото Jan Antonin Kolar — Unsplash

Data.gov.ru — хорошо знакомый хабражителям государственный проект в сфере открытых данных. Его московский аналог — Data.mos.ru. Из зарубежных вариантов стоит отметить Data.gov — площадку с открытыми данными от правительства США (единый каталог с фильтрами).

Университетская информационная система — проект МГУ, объединяющий базы со статистической информацией о социальном и экономическом положении в стране, а также публикации из государственных и научных источников. Данные берутся как из Росстата, так и из исследований, проведенных на базе МГУ. Ресурсом можно воспользоваться и без предварительной регистрации, но для полноценного доступа потребуется подать заявку.

Картографическая база Всероссийского геологического института им. Карпинского. Информация о природных ресурсах страны, собранная за время существования учреждения, была нанесена на цифровые карты. Интерфейс площадки позволяет сопоставить OpenStreetMap или Я.Карты с рядом доп. слоев с информацией о магнитном поле, полезных ископаемых и др.

GEOSS — портал для поиска данных наблюдения Земли со спутников и дронов различных типов. Архив ресурса собирают силами 90 организаций по всему миру. Чтобы найти интересующие сведения, достаточно выделить нужную область на карте или вбить в поиск ключевые слова.

MAST — архив, который финансируется NASA. Представленные данные собраны орбитальными телескопами — изучать и скачивать исследования можно с помощью поиска с фильтрами.

wptp0f36hdidnfuu3pqavvxhbyk.jpeg
Фото Max Bender — Unsplash

OpenEI — платформа для поиска открытых данных об использовании энергии, в частности о возобновляемых энергоресурсах и новых технологиях в отрасли. Сайт организован по принципу вики — достоверность данных проверяется сообществом.

Experimental Nuclear Reaction Data (EXFOR) — библиотека, содержащая данные 22615 экспериментов с элементарными частицами. В комплекте с базами данных CINDA (Computer Index of Nuclear Reaction Data) и IBANDL (Ion Beam Analysis Nuclear Data Library) является одним из крупнейших банков данных по ядерной физике. Курируется Брукхейвенской национальной лабораторией в США, но содержит эксперименты со всего мира — включая Россию и Китай.

National Centers for Environmental Information — архив экологических данных. Здесь вы получите доступ к двадцати петабайтам океанических и геофизических данных, а также сведениям об атмосфере и прибрежных зонах. В частности, тут найдется информация о глубине океана, поверхности Солнца, записи об осадочных породах и спутниковые снимки. Для поиска нужного датасета можно воспользоваться каталогом.

ADS — репозиторий для поиска археологических данных под управлением Йоркского университета. Здесь есть старые и новые научные публикации, сведения о раскопках и артефактах. Для поиска предлагают три категории: ArchSearch, Archives и Library. В первой хранятся данные о раскопках и артефактах. Во второй — архив всех загруженных материалов. В третьей — публикации из журналов, книги и исследования. Есть опции поиска по странам, эпохам и типам объектов.

DRYAD — этот сервис помогает искать информацию для научных исследований по банку данных из 80 тысяч файлов. Исследования и статьи из банка можно использовать по лицензии CC0. Тематика материалов включает разные области знаний, однако большинство исследований связаны с медициной и компьютерными науками. Согласно внутренней статистике, в 2018 году пользователи сайта наиболее интересовались песнями китов, температурной толерантностью морских обитателей, и нейронной активностью в височной доле человеческого мозга.

pgekmhndq6xobekcpakpxst1mq8.jpeg
В лаборатории «Перспективные наноматериалы и оптоэлектронные устройства» Университета ИТМО

GenBank — ДНК-библиотека, которую предоставляет Национальный центр биотехнологической информации США (NCBI), а также банки данных Европы и Японии. Доступен поиск по идентификаторам в специальном поисковом движке, с помощью инструмента BLAST или программным путем.

PubChem — база данных соединений и биопроб, которую содержит национальный центр биотехнологической информации США. Есть веб-интерфейс с расширенным поиском (пример про побочные эффекты воды). Данные распространяются на правах общественного достояния.

Protein Data Bank (RCSB PDB) — банк изображений белков и нуклеиновых кислот, история которого отсчитывается еще с 1971 года. Изначально разрабатывался, как внутренний проект Брукхейвенской национальной лаборатории, но в последствии превратился в крупнейшую международную базу данных своего типа. Большинство академических журналов, связанных с биохимией, обязуют авторов размещать на сайте полученные в ходе исследований белковые модели.

InterPro — база данных, объединяющая множество датасетов различных научных проектов. Включает в себя SMART — программу для анализа доменов в белковых последовательностях, основанную на технологиях машинного обучения и датасете из 1200 моделей. Поддерживается Европейским институтом биоинформатики.


Фотоэкскурсии по лабораториям Университета ИТМО:

© Habrahabr.ru