Технология Dell Reliable Memory Technology PRO: обнаружение и изоляция ошибок памяти

Независимо от производителя или типа ОЗУ, почти вся компьютерная память содержит те или иные микродефекты. Изготовитель памяти может потратить от 10 до 15% стоимости модуля памяти DIMM на обширное тестирование на наличие ошибок, но память все равно может быть подвержена сбоям и отказам во время эксплуатации системы. Самые разнообразные факторы — от избыточного нагрева до «старения» и наличия в ней микродефектов — могут привести к ошибкам памяти.

btdmhdfkqyq4h5oxurkv-1kn2nm.jpeg
В действительности частота ошибок динамической памяти с произвольным доступом (DRAM) на порядки выше, чем сообщают отчеты. В недавнем крупномасштабном исследовании ошибок памяти DRAM в полевых условиях на основе данных, собранных в течение более двух лет, около трети всех машин и более 8% модулей DIMM фиксировали по крайней мере одну исправимую ошибку в год (DRAM errors in the wild: a large-scale field study). На некоторых платформах почти в 50% систем возникали исправимые ошибки (отчет IBID), и в среднем только около 1,3% систем были подвержены непоправимым ошибкам, а для некоторых платформ этот показатель составлял 2–4%.

В стандартных офисных ПК ошибки памяти редко отрицательно влияют на результат работы стандартного прикладного программного обеспечения. Однако в системах старшего класса при интенсивных вычислениях в мире финансов, исследованиях в области добычи нефти и газа, в задачах медицинской визуализации, медиапроизводстве (рендеринге и редактировании) и пр. целостность данных является важнейшей составляющей общей архитектуры системы. В таких высокопроизводительных системах замена памяти занимает одно из первых мест в ремонте из-за отказавших компонентов, при этом ошибки памяти — одна из наиболее распространенных проблем с оборудованием, которые могут привести к сбоям системы (отчет IBID).

xk3-qdm0vdrauxctpyzy5dhyrji.jpeg

Таким образом, способность обнаруживать ошибки DIMM, сообщать о них и предотвращать сбои в высокопроизводительных рабочих станциях становится необходимостью.

Учитывая высокий спрос на экстремальную производительность оперативной памяти, Dell запатентовала инновационную, эксклюзивную технологию, применяемую в рабочих станциях Dell Precision, которая помогает маркировать и выводить из работы непригодную память. Эта уникальная функция Dell помогает сократить время простоя системы, упростить работу службы поддержки ИТ и снизить общие расходы на обслуживание, увеличивая долговечность памяти и повышая продуктивность работы пользователей.

Рассмотрим основные концепции технологии надежной памяти Dell Reliable Memory Technology PRO (RMT PRO), некоторые из основных причин ошибок памяти и то, как RMT PRO помогает устранять эти ошибки.

Оперативная память


Вместе с новыми достижениями в технологиях процессоров, увеличением скорости шины и усовершенствованиями в общей архитектуре, компьютерные системы становятся более сложными, и оперативной памяти также приходится идти в ногу с этими изменениями.

nl4j37kb-9vevyafsxgzmuctlbo.jpeg

По существу (очень упрощенно), чипы DRAM представляют собой массив элементов с состояниями «включен/выключен», которые сохраняют это состояние (1 или 0) при наличии питания. Когда питание выключено, они возвращаются в нулевое состояние. Несколько чипов собрано вместе в подсистеме памяти и размещено на печатной плате — модуле DIMM (dual in-line memory module).

В большинстве рабочих станций, таких как Dell Precision, используется тип DIMM, известный как DDR4 SDRAM — синхронное динамическое запоминающее устройство с произвольной выборкой. По существу, по сравнению с более ранними версиями типов памяти (например, DDR3), DDR4 работает быстрее, имеет большую пропускную способность и более высокую плотность памяти, требует меньшего напряжения питания.

Ошибки памяти


Ошибки памяти могут быть вызваны большим количеством факторов, в результате чего один бит DRAM автоматически переходит в противоположное состояние (например, из 1 в 0, когда во время этого цикла памяти должен оставаться в 1). На ошибки могут влиять такие факторы, как перегрев, возраст памяти, дефекты и т. д. Как показали исследования, в первые 10 месяцев эксплуатации DIMM уровень ошибок резко возрастает.

Эти типы ошибок называются исправимыми ошибками: они случайным образом повреждают биты, но не оставляют физических повреждений и могут быть исправлены с помощью обновления состояния памяти.

Однако во многих случаях возникают некорректируемые ошибки. Это повторяемая ошибка бита из-за физического дефекта или другой аномалии модуля DIMM, либо когда внутри одного блока памяти случаются сразу две ошибки. Неисправимая ошибка памяти может привести к сбою системы (потребуется перезагрузка) или приложения (код Stop Error на системном уровне, дамп ядра или «синий экран смерти» — BSoD). Часто исправимые ошибки предупреждают о приближающихся неисправимых ошибках. В исследованиях около 65–80% некорректируемых ошибок в том же месяце предшествовала исправимая ошибка.

Обработка ошибок


Сегодня многие ПК класса рабочей станции включают в себя алгоритмы проверки четности памяти, которые, попросту говоря, гарантируют, что каждый раз, когда считывается байт данных, отправленные данные совпадают с полученными данными.

r_38zdlzprlt-vmy_fcx3c1b6oc.jpeg

Более сложные системы используют другие методы коррекции ошибок и их обнаружения. Наиболее распространенный вариант — память с исправлением ошибок (error-correcting code, ECC). Она применяется в серверах и рабочих станциях, таких как рабочие станции Dell Precision. По сути, память ECC включает в себя дополнительные биты и встроенный контроллер памяти, который проверяет четность памяти, а в случае однобитовой ошибки логика памяти ECC может исправить ошибку и вывести исправленные данные, чтобы система продолжала работать.

ECC отлично справляется с исправлением изолированных ошибок памяти и обеспечивает стабильную работу системы. Тем не менее, память ECC не дает решения при множественных ошибках в одном блоке памяти. В этих случаях произойдет порча данных. В подобной ситуации может помочь Dell Reliable Memory Technology PRO.

Преимущества технологии RMT PRO


При физическом повреждении пластины жесткого диска сбойный сектор будет помечен как непригодный для использования системой ПК. Однако в большинстве компьютеров, включая рабочие станции с памятью ECC, неисправимая ошибка или несколько исправимых ошибок в одном блоке памяти на модуле DIMM могут привести к сбою системы. Пользователь, как правило, вынужден сообщать о такой ошибке своей службе поддержки, которая, в свою очередь, должна запустить некую программу диагностики для обнаружения ошибки. Нередко однократный отказ может потребовать замены всего модуля DIMM.

Результат — увеличение простоев, снижение производительности, потеря времени ИТ-персонала, необходимость замены DIMM и возможное повреждение ключевых файлов приложений.

si5jeycpjhy5ar_lpif7ukbjusu.jpeg

На выручку приходит технология Dell Reliable Memory Technology PRO (RMT PRO).
Похожая по своей концепции на технологию исправления ошибок жесткого диска, RMT PRO обнаруживает неисправимые ошибки и многобитовые исправимые ошибки в модуле DIMM и устраняет проблему. Вместо дорогостоящих простоев, запуск диагностики, вскрытия системы и замены неисправного модуля DIMM технология RMT PRO при перезагрузке:

  • Помечает дефектную часть отдельного модуля DIMM.
  • Сообщает о дефекте и местоположении сбойного участка DIMM в BIOS.
  • Удаляет эти плохие ячейки и небольшое количество соседних ячеек из пула используемой системной памяти.


_hrsoasam3q0zx0w35rrovtibeq.jpeg
После простой перезагрузки рабочей станции RMT PRO делает дефектную область невидимой для операционной системы. Приложения и критические системные функции будут «обходить» отмеченную область и продолжат работать без необходимости замены оборудования. Все будет так, как если бы плохая память никогда не существовала. Тем самым обеспечивается бесперебойная работа, уменьшается количество системных сбоев и ошибок приложений.

RMT PRO может сократить расходы на аппаратные средства — модули памяти. Поскольку память может ухудшаться при интенсивном использовании или чрезмерном нагревании (обычно из-за высокой нагрузки), число физических ошибок может возрастать. Несмотря на «плохую память» информация остается на DIMM. Кроме того, если требуется замена DIMM, RMT PRO будет отображать в BIOS, какие именно модули DIMM вызывают ошибки, ускоряя процесс устранения неисправностей и замену DIMM, что помогает сократить время простоя и снизить общую стоимость сервиса. Таким образом, технология RMT PRO увеличивает жизненный цикл оперативной памяти и помогает экономить средства.

azjslvijuack3sfiyoq_4kb1q8q.jpeg

Выводы


Хотя некоторые схемы обнаружения ошибок, такие как память ECC, могут отлавливать ошибки памяти, многие из этих алгоритмов позволяют обрабатывать только исправимые ошибки. Когда возникают физические дефекты или неисправимые ошибки в DIMM, Dell RMT PRO обеспечивает дополнительный уровень обнаружения и коррекции дефектной памяти.

Путем сопоставления и удаления поврежденных секторов технология RMT PRO делает так, чтобы приложения с интенсивными вычислениями получали доступ только к пригодной для использования памяти. Это может привести к значительной экономии как времени, так и денег из-за сокращения сроков замены оборудования и модулей DIMM, уменьшения простоев техники. Когда целостность данных имеет решающее значение, технология RMT PRO дает необходимый уровень уверенности, обеспечивая доступную память для максимального увеличения производительности и надежности рабочей станции.

© Geektimes