The СПО Strikes Back

Как-то удачно началась неделя. В поле зрения попали отчет про то, как СПО, преодолевая все трудности — наконец показывает ОГОГО КАКИЕ цифры.

e1aa07852cbfc60986dbccd9e9a94de8.jpg

Отчет — Ceph: A Journey to 1 TiB/s
В этом отчете меня порядовали следующие моменты:
Первый — использованное железо. 68 x Dell PowerEdge R6615, 10 x Dell 15.36TB Enterprise NVMe Read Intensive AG (на ноду).
Второй — ход тестирования. Все прошло как планировалось:

Sadly, we ran into trouble right at the start. The initial low-level performance tests looked good. Iperf network testing showed us hitting just under 200Gb/s per node. Random sampling of a couple of the nodes showed reasonable baseline performance from the NVMe drives. One issue we immediately observed was that the operating system on all 68 nodes was accidentally deployed on 2 of the OSD drives instead of the internal Dell BOSS m.2 boot drives.

И третий — глубокий анализ и важные выводы:

As we ran different combinations of 8-OSD and 1-OSD tests on individual nodes in the cluster, we saw wildly different behavior, but it took several days of testing to really understand the pattern of what we were seeing.

После чего тесты наконец показали

4MB random read performance improved slightly as the number of clients grew, while small random read IOPS degraded. Once we hit 8 FIO processes per node (504 total), sequential write performance dropped through the floor.

На фоне этого легко увидеть, что в такой, крайне простой конфигурации, Ceph по всем показателям превосходит проприетарные ноды vSAN ESA — в конфигурации которых еще так просто не разобраться, чего только стоит возня с двумя разными HCL (hardware compatibility list) и крайне убогий конфигуратор нод. То ли дело СПО, никаких проблем с HCL, если что не так — зашел на гитхаб и почитал.

Maximizing vSAN 8 ESA Potential with Western Digital Ultrastar DC SN655 NVMe SSDs

Как видно, для тестирования этой убогой проприетарщины, даже не смогли найти нормального оборудования —

We started with 32x Ultrastar DC SN655 NVMe SSDs from Western Digital, four Dell PowerEdge R6625 servers, and a 100GbE fabric. 

Кроме того, в тестах vSAN ESA использовали устаревшую конфигурацию дисков RAID5, которая не идет ни в какое сравнение с использованной в СПО конфигурации 3X replication

Как следствие, на 6 нодах CEPH при 2 NVME на ноду — было получено больше миллиона IOPS, а на полной скорости — при 630 OSDs (3x) — 4.9M IOPS
К сожалению, не указано при каких задержках, на одном из графиков выше (Post-fixes OSD Scaling) задержка составляла всего 15 ms при all NVME + 100G конфигурации.

Таким образом, при прямом сравнении этих двух тестов по итоговой достигнутой скорости, CEPH выиграл с огромным отрывом — почти 5 миллионов IOPS против еле-еле полумиллиона у vSAN ESA, и отстал по пропускной способности. Там, где CEPH дошел до 1 ТБита — vSAN еле еле добился

Regarding write bandwidth, RAID5 had the upper hand, measuring 14.3GB/s versus 12.7GB/s from RAID1. RAID1 had the lead on read bandwidth with 24.1GB/s against RAID5 with 22GB/s. With random 4K write transfers, RAID1 and RAID5 were close, although we measured 521K IOPS in R1 against 505K IOPS in R5. 

© Habrahabr.ru