Как изменят SSD диски объёмом больше 10 Тб корпоративный сегмент хранения данных

Жесткие диски объемом 8 и 10 Тб уже активно используются в Enterprise-системах, там где важна высокая плотность хранения данных. Пока что технология производства позволяет выпускать такие диски с частотой вращения шпинделя 7200 об/мин, и очевидно, что повышение производительности за счет увеличения скорости вращения пластин, пока что этим дискам не грозит. Аналогично, пока нет оснований считать, что винчестеры со столь высокой плотностью записи должны быть надежнее своих 2-терабайтных собратьев. Казалось бы, в случае с системами хранения данных, чем больше — тем лучше, но похоже на то, что как раз в корпоративном мире винчестеры подходят к той грани, где большой объем уже не является преимуществом.

samsung1633a.jpg

В начале февраля, компания Intel пообещала в течение двух лет представить SSD диск объемом более 10 Тб. А уже в начале марта, Samsung объявила о начале поставок своего первого SSD диска PM1633a объемом 15.36 Тб. Получается, что последнее преимущество жестких дисков, их большой объем, тает на глазах, как снег под ярким весенним солнышком.

Пока что нет реальных случаев использования массивов данных на SSD большого объема, мы можем поразмышлять над тем, почему не стоит сейчас делать выбор в пользу 8–10 Тб винчестеров, а сразу нацеливаться на SSD того же размера.

Основной вопрос — стоимость 1 Гб

Единственное серьезное преимущество использования больших жестких дисков в бизнесе — это стоимость хранения 1 Гб данных. Но, и это преимущество сходит на нет с появлением больших SSD. Вы скажете, как такое возможно, ведь 8-Тб жесткий диск стоит примерно 500$, а 16 Тб SSD ожидается по цене около 8000$? Как их можно сравнивать по цене гигабайта? Но, как говорится, все дело — в деталях.

Если сравнивать в лоб SSD и HDD по цене гигабайта, то SSD проиграет. Но если посмотреть на готовый проект, реализованный на SSD или HDD, то возможно, что SSD и выиграет за счет экономии на кеширующих устройствах. Позвольте, я поясню.

Например, мы имеем дело с новомодным Big Data проектом, который собирает и обрабатывает петабайты информации. Как он будет реализован в железе? Примерно, выглядит это так: вот стоят два шкафа с дисковыми полками, забитым 8 Тб винчестерами, где данные хранятся. А вот рядом стоят 3–4 полки с быстрыми флэш-дисками, куда данные переносятся для их обработки, и уже к этим полкам подключаются обрабатывающие узлы. Это не совсем кэширование в привычном его понимании. Выбор, что хранить на HDD, а что — на SSD, делает само приложение или операционная система. Чем-то это напоминает SSD кэш, который сейчас есть даже в NAS-ах начального уровня, только немного сложнее.

Так вот, получается, что без SSD не обойтись, даже если вы будете хранить свои данные на больших жестких дисках, если, конечно, у вас не архив онлайн-бэкапов. Разделять данные на «горячие» и «холодные» все равно придется.

Cold_data.jpg

Выбирая большие SSD диски, вы упрощаете инфраструктуру: вам не нужны кеширующие полки, потому что SSD такого объема, по производительности, выраженной в IOPS (операции ввода/вывода в секунду), примерно в 1000 раз быстрее серверных HDD с частотой вращения диска 15 000 RPM. Для сравнения — HDD с частотой вращения шпинделя 15 000 оборотов в минуту, может обеспечить производительность в районе 200–300 IOPS, в зависимости от нагрузки. А Samsung PM1633A выдает 200 000 IOPS на чтение и 32 000 IOPS на запись. Линейная скорость чтения и записи составляет порядка 1100 Мб/c, в 5 раз выше, чем у 15K HDD. Поэтому теперь вам не нужно перемещать данные с одного носителя на другой, вы можете подключать вычислительные узлы непосредственно к полке с SSD. Сегодня уже существуют 2U серверы с возможностью установки 48 жестких дисков формата 2.5 дюйма (Supermicro 2028R-E1CR48L). При использовании таких SSD, как Samsung PM1633A, их дисковое пространство составит 737.28 Тб. А 42-юнитовый шкаф, загруженный такими серверами с SSD, даст вам 15.4 Пб дискового пространства.

В итоге, вместо двух шкафов с жесткими дисками и 3–4 кеширующих полок, вы получаете 1 шкаф с дисковыми полками или серверами, использующими SSD. И, конечно, в этом случае даже при том же объеме хранимых данных, SSD выиграют по цене гигабайта. И это мы еще не говорим о том, что нам не нужно переписывать приложение для работы с «горячими» (на кэширующем устройстве) и «холодными» (на медленных HDD) данными.

Снова можно использовать RAID массивы

В случае с большими HDD дисками, RAID-массивы противопоказаны, ведь как известно, беда не приходит одна, и если у вас сломался жесткий диск в RAID-массиве, то наверняка второй уже на подходе. Время на восстановление RAID 5 на 5 дисках объемом 1 Тб, занимает примерно 6–7 часов. Чем большего объема диск вы поставите, тем дольше будет длиться операция Rebuild. Эта операция может занять несколько дней, и надо ли говорить, что вышедший из строя во время «ребилда» второй жесткий диск, унесет RAID 5 вместе со всеми данными в бездну? Поэтому, когда дело касается больших данных и больших дисков, RAID-массивам предпочитают простую дубликацию или распределение данных по разным узлам, но опять-таки, на уровне приложения. Технологии распределения данных по физическим узлам и жестким дискам, работают на тех же принципах, что и RAID, и напоминают нечто среднее между RAID 1 и RAID 5, но, как правило, эффективность использования пространства здесь меньше.

Так вот, большие SSD диски не будут иметь такой проблемы с восстановлением массива. Их скорости чтения и записи пока что ограничены сравнительно «медленным» интерфейсом SAS 12Gbps, дающим чуть меньше 1 гигабайта в секунду. В реальной же жизни, еще не понятно, как покажут себя современные RAID контроллеры на таких скоростях — хватит ли им мощности встроенного процессора, чтобы раскрыть преимущества SSD в RAID 5 массивах? Но уже понятно, что тормознутых скоростей HDD там не будет, а значит не нужно городить программное распределение данных — можно использовать проверенный временем, надежный RAID 5, или RAID 6 для уверенности. И в том, и в другом случаях, эффективность будет выше, чем при попытках программно разносить данные по разным узлам.

Новая эра? Она самая!

Сравнить по своей значимости появление SSD дисков объемом более 10 Тб, я могу с релизом iPhone или iPad. Как эти гаджеты поменяли представление о мобильности, так большие SSD поменяют представления о хранении и обработке данных. Во-первых, все данные становятся «горячими». Вы можете хранить фантастические объемы в одном, быстром устройстве с прямым подключением серверного хоста. Да пусть даже в самом сервере! А это — терабайтные базы данных, по которым лихо летает полнотекстовый поиск, это системы распознавания лиц, ищущие человека в архивах сотен камер наблюдения за несколько месяцев сразу, это, плюс ко всему, возможность изучать приложения Big Data в учебных заведениях, и экспериментировать, как говорится, на живом железе.

Смогут ли 15K RPM HDD ну хоть что-нибудь?

Однозначно — нет. Эпоха жестких дисков подошла к концу, и какое-то время производители будут поставлять свои винчестеры в качестве запчастей к установленным СХД и серверам, а так же с ужасом реагировать на каждое снижение цены на SSD. Технология 3D Nand, благодаря которой стало возможным создание таких огромных SSD, будет развиваться и удешевляться. Надобность в дисках с частотой вращения 10k и 15k rpm будет отпадать с каждым днем, поэтому прогресса там ждать не стоит.

15khdd.jpg

Единственное, что пока еще остается для жестких дисков — это системы видеонаблюдения начального уровня, да NAS-ы для малого бизнеса. Здесь не требуется высоких скоростей из-за ограничения интерфейса Ethernet, здесь нужны большой объем за маленькие деньги. Поэтому, SATA диски на 7200 RPM в обозримом будущем никуда не исчезнут.

LIKE OFF
10/03.2016

Полный текст статьи читайте на HWP.ru