Длительное архивное хранение данных, или Как посмотреть селфи моей прабабушки?
Пожалуй, мало найдётся в вычислительной технике областей, привлекающих всеобщее внимание, и, вместе с тем, окружённых таким количеством мифов и недопонимания, как длительное архивное хранение данных. Как человек, сталкивавшийся в своей профессиональной практике с актуализацией данных многолетней давности и с организацией долговременных архивов, рискну также высказаться на этот счёт.
Краткое резюме для тех, кому лень читать всю статью: серебряной пули нет.
Для тех, кому интересно более детальное обсуждение вопроса, предназначен дальнейший текст.
Итак, переход к безбумажной информатике, о необходимости которого столько говорили большевики, свершился. Объём данных на цифровых носителях удваивается каждые два года. Мало кто из современной молодёжи заботится распечатывать интересные тексты или изображения (сам я, относясь к среднему возрасту, тоже пренебрегаю бумагой, уже практически разучился писать от руки, и предпочитаю скачать книгу из интернет-библиотеки на смартфон, нежели сходить за её бумажной версией к шкафу в соседней комнате). Но, к сожалению, цифровые удобства имеют и оборотную сторону, заключающуюся в проблеме долговременного хранения.
Говоря о долговременном хранении, я подразумеваю горизонт планирования от 25 до 100 лет, то есть такой временной период, который позволит современному человеку, сохранив какую-то частную информацию в молодости, затем иметь возможность вернуться к ней на протяжении своей жизни, а то и передать потомкам (к вопросу о вынесенном в заголовок примере с прабабушкиным селфи). Для бизнеса такое долговременное хранение имеет более узкоспециальное значение, поскольку очень немногие бизнес-процессы работают с данными на подобных временных периодах (хотя организации с такими процессами, безусловно, существуют и обычно отчётливо осознают свою специфику).
В первом приближении, можно выделить три уровня рассмотрения данной проблемы, внимание к которым широкой публики убывает от начала к концу списка.
1. Физическая сохранность носителей и удельная стоимость хранения.
Это наиболее широко известный уровень рассмотрения, которым и ограничиваются многие публикации. Не будем переливать из пустого в порожнее и повторять общеизвестные вещи, и вкратце резюмируем, что на сегодняшний день в повседневной пользовательской практике используются три категории архивных носителей:
— Оптические диски (CD, DVD, BD и т.п.) и флеш-накопители. Принято считать, что данные на таких носителях могут разрушаться через несколько лет, и, во всяком случае, через 25 лет её, скорее всего, вряд ли удастся прочитать.
— Магнитные носители (жёсткие диски и ленты). Тут имеется выход на большой флейм между сторонниками дисков и лент, в котором, вкратце говоря, дисковики упрекают ленточников в экзотичности, низкой скорости произвольного доступа и высокой стоимости устройств чтения-записи, а ленточники упрекают дисковиков в уязвимости носителей, высоком энергопотреблении и высокой удельной стоимости хранения для больших объёмов данных. Не вдаваясь в справедливость тех или иных аргументов и контраргументов в диско-ленточной войне, отметим, что архивные магнитные носители в настоящее время зачастую имеют заявленное время сохранности не менее 30 лет, хотя, конечно, это число получено путём экстраполяции результатов интенсивных тестов, а не путём натурного 30-летнего наблюдения.
— Сетевые архивы. Тут идея состоит в том, чтобы перепоручить хранение своих данных специально обученным людям в специально уполномоченных фирмах, а самому рассматривать такое сетевое хранилище как чёрный ящик с интерфейсом в виде интернет-сервиса. Плюсом данного решения является то, что, несомненно, профессионально предоставляющие подобные услуги фирмы способны гораздо лучше позаботиться о сохранности данных, чем рядовой пользователь (причём делать это потенциально неограниченно долго), а заодно и обеспечить низкую стоимость хранения за счёт масштабного эффекта. Минусом являются не зависящие от пользователя риски. Основным риском для долговременного хранения информации в сетевом архиве является внезапная ликвидация бизнеса предоставляющей услугу фирмы, от чего, к сожалению, никто не застрахован. Дополнительным риском является потенциально возможное в будущем установление органами различных государств и интернет-провайдерами пограничных, контентных, форматных или иных ограничений на передачу информации через сеть Интернет, которые могут сделать невозможным доступ к удалённому архиву.
Итак, рассуждая умеренно пессимистично, можно прийти к выводу, что физическая сохранность данных в настоящее время может быть обеспечена с контролируемыми рисками примерно на 30 лет вперёд.
2. Техническая совместимость носителей.
Этот вопрос рассматривается гораздо реже. Давайте, воспользовавшись полученной ранее оценкой физической сохранности, проведём мысленный эксперимент и прикинем, на какой носитель могла бы записать свои цифровые данные даже не моя прабабушка, а всего лишь моя мама 30 лет назад.
Итак, 30 лет назад шёл 1986 год. В зависимости от своих технических предпочтений, пользователь того времени мог бы счесть наиболее заслуживающим доверия носителем для сохранения данных: 9-дорожечную магнитную ленту большого компьютера; широко используемые на персоналках 5- или 8- дюймовые дискеты; или новейшую по тем временам 800-килобайтную 3-дюймовую дискету для дисковода фирмы Sony от компьютера Macintosh (несовместимую с более поздними 3-дюймовыми дисководами на 1.44 мегабайта). Даже предположив идеальную физическую сохранность носителей, чтение в наше время с любого из них, конечно, возможно, но обойдётся в значительные затраты времени и денег, с которыми вряд ли кто станет связываться ради маминого селфи. Ещё через 30 лет технологии чтения этих носителей, вероятно, будут окончательно утрачены.
Может быть, это только 30 лет назад из-за младенчества вычислительной техники всё было так плохо, а сегодня мы свободны от этой проблемы? Давайте посмотрим на современные ностители информации.
В качестве долговременного архивного носителя информации в настоящее время чётко позиционируются магнитные ленты стандарта LTO. Мир LTO устроен таким образом, что каждые 2–3 года выпускается новое поколение стандарта, отличающееся примерно удвоенной ёмкостью, и выпускается оборудование под это поколение (сейчас действующим стандартом является LTO-7). Однако, стандарт LTO регламентирует (а общепринятая практика производителей обеспечивает) совместимость стримеров LTO с носителями для чтения только на два поколения назад, а для записи — на одно поколение. Это значит, что современный стример LTO-7 способен читать только кассеты LTO-7, LTO-6 или LTO-5, а современная кассета LTO-7, будучи записана сегодня, окажется несовместимой со стримерами LTO-10, появление которых можно прогнозировать примерно на 2022 год. Уже через 10 лет (в 2026 году) современная кассета не будет читаться ни одним имеющимся на рынке устройством (а старые устройства 7–9 поколений к тому времени не будут поддерживаться и, будучи приборами чрезвычайно прецизионной точной механики, начнут выходить из строя из-за возрастной деградации). В этом плане, гарантии 30-летней сохранности самой кассеты носят несколько романтический характер.
Допустим, мы встанем на сторону дисковиков и запишем информацию на современный жёсткий диск SATA или SAS. Этим стандартам интерфейса и так уже более 10 лет, и крайне маловероятно, что они продержатся ещё хотя бы 10. То же самое относится к USB в современном виде. Отсутствие фактической почвы делает все рассуждения об отдалённом будущем физических интерфейсов крайне спекулятивными, но можно предположить, например, что через 10–20 лет интерфейсы дисковых устройств вполне могут стать оптическими, и в таком случае будут несовместимы с современными устройствами уже на уровне среды передачи данных.
Исходя из вышесказанного, крайне маловероятно, чтобы современный магнитный носитель мог быть распознан каким-либо штатным компьютерным устройством через 30 лет.
Хранение данных в сетевом архиве позволяет переложить указанные проблемы на специально обученных людей, но остаётся имеющим указанные в предыдущем разделе риски. Уместно напомнить, что большинство лидеров компьютерного рынка 30-летней давности к настоящему времени ликвидировалось, за несколькими исключениями вроде IBM, Apple и Microsoft, которые, однако, с тех пор очень значительно поменяли сферу деятельности.
3. Совместимость форматов данных.
Об этом вопросе пишут совсем редко.
Так как 30 лет назад всё-таки на самом деле не было цифровых селфи, то давайте представим, что нам из 1986 года попал простой текстовый электронный документ, и что нам удалось удалось решить все технические проблемы и его записать в файл современного компьютера.
Ввиду большого разнообразия компьютерного мира в 1986 году, вариантов тут может быть очень много, поэтому рассмотрим только некоторые:
— от пользователя мейнфрейма 1986 года нам на диск может попасть образ виртуальной колоды перфокарт с фиксированными 80-символьными записями в кодировке EBCDIC (ДКОИ);
— от пользователя Macintosh мы получим документ ClarisWorks;
— от пользователя PC мы получим, например, документ досовского текстового редактора ChiWriter или WordPerfect, хотя при удаче это может оказаться и обычный текстовый файл;
— и только с пользователем Unix нам практически точно повезёт, и мы, вероятно, получим от него обычный читаемый текстовый файл (в кодировке русского языка koi8-r или ещё похуже).
Это ситуация с наиболее банальным видом документа, простым текстом. Если же представить, что к нам попал, например, чертёж из 1986 года, можно практически со стопроцентной уверенностью утверждать, что никак интерпретировать этот файл мы сейчас не сможем.
На чём же базируется наша неявная уверенность, что мы сможем, вырвавшись на полчасика из обьятий Альцгеймера, показывать своим скучающим внукам невнятные фотки из отпуска 2016 года? Допустим, при известном оптимизме можно представить, что формат jpeg, ввиду его огромной распространённости в современной жизни, можно будет как-то отконвертировать в форматы изображений, которые будут приняты в светлом альцгеймеровом будущем (хотя исторических прецедентов такого длительного срока жизни формата не было). Но уж точно это не будет относиться ни к raw-форматам фотокамер, ни к форматам офисных документов вроде doc/docx, ни к электронным книгам fb2/epub и т.д., просто из-за того, что нет субъекта, имеющего цель и возможность обепечить неограниченную совместимость такого формата.
4. Что же делать?
Поддержание цифрового архива в актуальном состоянии является достаточно сложной и трудозатратной деятельностью, независимо от его назначения и используемых технических средств. Эта деятельность должна включать полный пересмотр архива каждые несколько лет, с переносом всего его содержимого на новые носители данных, а также, при необходимости, конвертированием каждого устаревающего по формату документа в новый, актуальный формат.
Можно допустить, что, поскольку мало кто как из частных пользователей, так и из юридических лиц возьмёт на себя труд заниматься такими вещами, то мы, в таком случае, находимся на пороге нового этапа развития человеческого общества, которое будет характеризоваться отдельными чертами возврата к дописьменному состоянию, когда достоверные данные о личном и общественном прошлом в большинстве своём станут утрачиваться за время жизни одного поколения, а оставшиеся немногие актуальные цифровые архивы станет достаточно легко фальсифицировать ввиду значительной степени их централизации.
На этом лирическое отступление можно закончить, а (банальным) практическим выводом может являться то, что ведение любого архива требует активных занятий по поддержанию актуальности составляющих его данных, а не только пассивного сбрасывания файлов в информационную кучу. Люди, которые занимаются таким осознанным ведением архивов, в том числе и в частной жизни, существуют и вполне известны, и ничто не мешает присоединиться к их практикам.
А селфи для правнуков лучше всё-таки на всякий случай напечатать на фотобумаге.