Обработка и хранение данных: от древности до ЦОДов
То, как информация хранилась и распространялась сквозь века, продолжает оставаться буквально вопросом жизни и смерти: от выживания племени и сохранения рецептов традиционной медицины до выживания вида и обработки сложных климатических моделей.
Посмотрите на инфографику (кликабельна для просмотра в полной версии). Она отображает эволюцию устройств хранения данных, и масштабы действительно впечатляют. Однако эта картинка далека от совершенства — она охватывает каких-то несколько десятилетий истории человечества, уже живущего в информационном обществе. А между тем данные накапливались, транслировались и хранились с того момента, откуда нам известна история человечества. Сперва это была обычная человеческая память, а в недалёком будущем мы уже ждём хранения данных в голографических слоях и квантовых системах. На Хабре уже неоднократно писали про историю магнитных накопителей, перфокарты и диски размером с дом. Но ещё ни разу не было проделано путешествие в самое начало, когда не было железных технологий и понятия данных, но были биологические и социальные системы, которые научились накапливать, сохранять, транслировать информацию. Попробуем сегодня прокрутить всю историю в рамках одного поста.
Источник изображения: Flickr
До изобретения письменности
До того, как появилось то, что можно без сомнения назвать письменностью, основным способом сохранить важные факты была устная традиция. В такой форме передавались социальные обычаи, важные исторические события, личный опыт или творчество рассказчика. Эту форму сложно переоценить, она продолжала процветать вплоть до средних веков, далеко после появления письменности. Несмотря на неоспоримую культурную ценность, устная форма — эталон неточности и искажений. Представьте себе игру в «испорченный телефон», в которую люди играют на протяжении нескольких столетий. Ящерицы превращаются в драконов, люди обретают песьи головы, а достоверную информацию о быте и нравах целых народностей невозможно отличить от мифов и легенд.
Боян
От клинописи до печатного станка
Для большинства историков рождении цивилизации с большой буквы неотрывно связано с появлением письменности. Согласно распространенным теориям, цивилизация в современном ее понимании появляется в результате создания излишков пищи, разделения труда и появления торговли. В долине Тигра и Евфрата произошло именно это: плодородные поля дали почву торговле, а коммерция, в отличии от эпоса, требует точности. Было это примерно в 2700 г. до нашей эры, то есть 5700 лет назад. Львиная доля шумерских табличек с клинописью заполнены бесконечным рядом торговых транзакций. Не все, конечно, так банально, например, расшифровка шумерской клинописи сохранила для нас старейшую на данный момент литературную работу — «Эпос о Гильгамеше».
Глиняная табличка с клинописью
Клинопись, определенно, была отличным изобретением. Глиняные таблички неплохо сохранились, что уж говорить о клинописи, выбитой на камне. Но у клинописи есть однозначный минус — скорость, и физический (не в мегабайтах) вес итоговых «документов». Представьте, что вам нужно срочно написать и доставить несколько счетов в соседний город. С глиняными табличками такая работа может стать в буквальном смысле неподъемной.
Во многих странах, от Египта до Греции, человечество искало способы быстро, удобно и надежно фиксировать информацию. Все больше люди приходили к той или иной вариации тонких листов органического происхождения и контрастных «чернил». Это решало проблему с со скоростью и, так сказать, «емкостью» на килограмм веса. Благодаря пергаменту, папирусу и, в конечном счете, бумаге человечество получило свою первую информационную сеть: почту.
Однако, с новыми преимуществами пришли новые проблемы: все, что написано на материалах органического происхождения имеет свойство разлагаться, выцветать, да и просто гореть. В эпоху от темных веков вплоть до изобретения печатного пресса большим и важным делом было копирование книг: буквальное переписывание набело, буква за буквой. Если представить сложность и трудоемкость этого процесса, легко понять, почему чтение и письмо оставались привилегией очень узкой прослойки монашества и знатных людей. Однако в середине пятнадцатого века произошло то, что можно назвать Первой Информационной Революцией.
От Гутенберга до лампы
Попытки упростить и ускорить набор текста с помощью комплектов заранее отлитых словоформ или букв и ручного пресса предпринимали еще в Китае в 11 веке. Почему же мы мало знаем об этом и привыкли считать родиной печати Европу? Распространению наборной печати в Китае помешала их собственная сложная письменность. Производство литер для полноценной печати на китайском было слишком трудоемким.
Благодаря Гутенбергу же, у книг появилось понятие экземпляра. Библия Гутенберга была отпечатана 180 раз. 180 копий текста, и каждая копия повышает вероятность, что пожары, наводнения, ленивые переписчики, голодные грызуны не будут помехой для будущих поколений читателей.
Печатный станок Гутенберга
Ручной пресс и ручной подбор литер, однако, не являются, конечно, оптимальным по скорости и трудозатратам процессом. С каждым столетием человеческое общество стремилось не только найти способ сохранить информацию, но и распространить ее как можно более широкому кругу лиц. С развитием технологий, эволюционировала как печать, так и производство копий.
Ротационная печатная машина была изобретена в конце девятнадцатого века, и ее вариации используются вплоть до сегодняшнего дня. Эти махины, с непрерывно вращающимися валами, на которых закреплены печатные формы, были квинтэссенцией индустриального подхода и символизировали очень важный этап в информационном развитии человечества: информация стала массовой, благодаря газетам, листовкам и подешевевшим книгам.
Массовость, однако, не всегда идет на пользу конкретному кусочку информации. Основной носитель, бумага и чернила, все так же подвержены износу, ветхости, утере. Библиотеки, полные книг по всем возможным областям человеческих знаний, становились все более объемны, занимая огромные пространства и требуя все больше ресурсов для своего обслуживания, каталогизации и поиска.
Очередной сдвиг парадигмы в сфере хранения информации произошел после изобретения фотопроцесса. Нескольким инженерам пришла в голову светлая мысль, что миниатюрные фотокопии технических документов, статей и даже книг могут продлить исходникам жизнь и сократить необходимое для их хранения место. Получившиеся в результате подобного мыслительного процесса микрофильмы (миниатюрные фотографии и оборудование для их просмотра) вошли в обиход в финансовых, технических и научных кругах в 20-х годах двадцатого века. У микрофильма много плюсов — этот процесс сочетает в себе легкость копирования и долговечность. Казалось, что развитие способов хранения информации достигло своего апогея.
Микроплёнка, используется до сих пор
От перфокарт и магнитных лент к современным ЦОДам
Инженерные умы пытались придумать универсальный метод обработки и хранения информации еще с 17-го века. Блез Паскаль, в частности, заметил, что если вести вычисления в двоичной системе счисления, то математические закономерности позволяют привести решения задач в такой вид, который делает возможным создание универсальной вычислительной машины. Его мечта о такой машине осталась лишь красивой теорией, однако, спустя века, в середине 20-го века, идеи Паскаля воплотились в железе и породили новую информационную революцию. Некоторые считают, что она все еще продолжается.
То, что сейчас принято называть «аналоговыми» методами хранения информации, подразумевает, что для звука, текста, изображений и видео использовались свои технологии фиксации и воспроизведения. Компьютерная память же универсальна — все, что может быть записано, выражается с помощью нулей и единиц и воспроизводится с помощью специализированных алгоритмов. Самый первый способ хранения цифровой информации не отличался ни удобством, ни компактностью, ни надежностью. Это были перфокарты, простые картонки с дырками в специально отведенных местах. Гигабайт такой «памяти» мог весить до 20 тонн. В такой ситуации сложно было говорить о грамотной систематизации или резервном копировании.
Перфокарта
Компьютерная индустрия развивалась стремительно и быстро проникала во все возможные области человеческой деятельности. В 50-х годах инженеры «позаимствовали» запись данных на магнитную ленту у аналоговой аудио и видеозаписи. Стримеры с кассетами объемом до 80 Мб использовались для хранения и резервного копирования данных вплоть до 90-х годов. Это был неплохой способ с относительно продолжительным сроком хранения (до 50 лет) и небольшим размером носителя? Кроме того, удобство их использования и стандартизация форматов хранения данных ввела понятие резервного копирования в бытовой обиход.
Один из первых жёстких дисков IBM, 5 МБ
У магнитных лент и систем, связанных с ними, есть один серьезный недостаток — это последовательный доступ к данным. То есть, чем дальше запись находится от начала ленты, тем больше времени потребуется для того, чтобы ее прочитать.
В 70-х годах 20-го века был произведен первый «жесткий диск» (HDD) в том формате, в котором он знаком нам сегодня — комплект из нескольких дисков с намагничивающимся материалом и головками для чтения/записи. Вариации этой технологии используются и сегодня, постепенно уступая в популярности твердотельным накопителям (SSD). Начиная с этого момента, в течении всего компьютерного бума 80-х формируются основные парадигмы хранения, защиты и резервного копирования информации. Благодаря массовому распространению бытовых и офисных компьютеров, не обладающих большим объемом памяти и вычислительной мощности, укрепилась модель «клиент-сервер». По началу «сервера» были по большей части локальными, своими для каждой организации, института или фирмы. Не было какой-то системы, правил, информация дублировалась в основном на дискеты или магнитные ленты.
Появление интернета, однако, подстегнуло развитие систем хранения и обработки данных. В 90-х годах, на заре «пузыря доткомов» начали появляться первые дата-центры, или ЦОД-ы (центры обработки данных). Требования к надежности и доступности цифровых ресурсов росли, вместе с ними росла сложность их обеспечения. Из специальных комнат в глубине предприятия или института дата-центры превратились в отдельные здания со своей хитрой инфраструктурой. В то же время, у ЦОД-ов кристаллизовалась своего рода анатомия: сами компьютеры (серверы), системы связи с интернет-провайдерами и все, что касается инженерных коммуникаций (охлаждение, системы пожаротушения и физического доступа в помещения).
Чем ближе к сегодняшнему дню, тем больше мы зависим от данных, хранящихся где-то в «облаках» ЦОД-ов. Банковские системы, электронная почта, онлайн-энциклопедии и поисковые движки — все это стало новым стандартом жизни, можно сказать, физическим продолжением нашей собственной памяти. То, как мы работаем, отдыхаем и даже лечимся, всему этому можно навредить простой утерей или даже временным отключением от сети. В двухтысячных годах были разработаны стандарты надежности дата центров, от 1-го до 4-го уровня.
Тогда же из космической и медицинской отраслей начали активно проникать технологии резервирования. Конечно, копировать и размножать информацию с тем, чтобы защитить ее в случае уничтожения оригинала люди умели давно, но именно дублирование не только носителей данных, но и различных инженерных систем, а также необходимость предусматривать точки отказала и возможных человеческих ошибок отличает серьезные ЦОДы. Например, ЦОД, принадлежащий к Tier I будет лишь ограниченную избыточность хранения данных. В требования к Tier II уже прописано резервирование источников питания и наличие защиты от элементарных человеческих ошибок, а Tier III предусматривает резервирование всех инженерных систем и защиту от несанкционированного проникновения. Наконец, высший уровень надежности ЦОДа, четвертый, требует дополнительное дублирование всех резервных систем и полное отсутствие точек отказа. Кратность резервирования (сколько именно резервных элементов приходится на каждый основной) обычно обозначается буквой M. Со временем требования к кратности резервирования только росли.
Построить ЦОД уровня надежности TIER-III, — это проект, с которым справится только исключительно квалифицированная компания. Такой уровень надежности и доступности означает, что, как инженерные коммуникации, так и системы связи дублированы, и дата-центр имеет право на простой только в количестве около 90 минут в год.
У нас в Safedata такой опыт есть: в январе 2014 года в рамках сотрудничества с Российским Научным Центром «Курчатовский Институт» нами был введен в эксплуатацию второй дата-центр SAFEDATA — Москва-II, который также отвечает требованиям уровня TIER 3 стандарта TIA-942, ранее же (2007–2010) мы построили дата-центр Москва-I, который отвечает требованиям уровня TIER 3 стандарта TIA-942 и относится к категории центров хранения и обработки данных с защищенной сетевой инфраструктурой.
Мы видим, что в IT происходит еще одна смена парадигмы, и связана она с data science. Обработка и хранение больших объемов данных становятся актуальны как никогда. В каком-то смысле, любой бизнес должен быть готов стать немного учеными: вы собираете огромное количество данных о ваших клиентах, обрабатываете их и получаете для себя новую перспективу. Для реализации таких проектов потребуется аренда большого количества мощных серверных машин и эксплуатация будет не самой дешевой. Либо, возможно, ваша внутренняя ИТ-система настолько сложна, что на поддержание ее уходит слишком много ресурсов компании.
В любом случае, для каких бы целей вам не понадобились значительные вычислительные мощности, у нас есть услуга «Виртуального ЦОДа». Инфраструктура как сервис — не новое направление, однако мы выгодно отличаемся целостным подходом, начиная от специфически ИТ-шных проблем, вроде переноса корпоративных ресурсов в «Виртуальный ЦОД», до юридических, таких как консультация по актуальному законодательству РФ в сфере защиты данных.
Развитие информационных технологий похоже на беспощадно несущийся вперед поезд, не все успевают запрыгнуть в вагон когда им предоставляется возможность. Где-то до сих пор используют бумажные документы, в старых архивах хранятся сотни не оцифрованных микрофильмов, государственные органы могут до сих пор использовать дискеты. Прогресс никогда не бывает линейно-равномерным. Никто не знает, сколько важных вещей мы в результате навсегда потеряли и какое количество часов было потрачено из-за до сих пор не вполне оптимальных процессов. Зато мы в Safedata знаем, как не допустить пустых трат и невосполнимых потерь конкретно в вашем случае.
Комментарии (1)
14 декабря 2016 в 12:19
+1↑
↓
А все-таки жаль, что перфокарты вышли из обращения… Я бы их еще обязал делать стальными (для долговечности). Тогда глядишь- и дистрибутивы многих программ были бы полегче (в прямом смысле).