Опубликован рейтинг суперкомпьютеров Top500 на июнь 2016 года, Китай представил 100 ПФлопс суперкомпьютер
Сегодня вышел 47 рейтинг суперкомпьтеров мира Top500 в соответствии с тестом Linpack. В отличие от предыдущих 6 версий рейтинга, сменился лидер списка, на первое место вышла китайский суперкомпьютер Sunway TaihuLight (神威·太湖之光) с результатом в 93 петафлопса на тесте Linpack (теоретическая производительность 125,4 петафлопс). Его производительность примерно в 3 раза выше чем у предыдущего лидера списка, китайского Tianhe-2.
Новый суперкомпьютер разработан Национальным исследовательским центром параллельной вычислительной техники и технологий КНР (National Research Center of Parallel Computer Engineering & Technology). Размещена система в Национальном центре суперкомпьютеров в городе Уси провинции Цзянсу на востоке Китая.
В основе суперкомпьютера лежат новые китайские процессоры семейства ShenWei — SW26010 с оригинальной 64-битной RISC-архитектурой, предположительно изготовленные по технологии 28 нм. Каждый процессор оснащен 260 ядрами, работает на частоте 1.45 ГГц и имеет производительность 3.06 терафлопс.
Процессор был разработан в Shanghai High Performance IC Design Center. Процессор состоит из 4 сходных блоков ядер (core groups), соединенных встроенной сетью на кристалле. В каждом блоке имеется одно управляющее ядро (Management Processing Element, MPE), контроллер памяти DDR3 (128 бит) и 64 вычислительных ядра (Computing Processing Elements, CPE) в массиве 8×8. Оба типа ядер имеют микроархитектуру с внеочередным исполнением команд. Управляющие MPE-ядра поддерживает исполнение как операционной системы, так и пользовательского кода, использует 264-битные векторные операции, содержит по 32 КБ кеш-памяти первого уровня инструкций и данных и 256 КБ кеш-памяти второго уровня. Вычислительные CPE-ядра могут исполнять лишь пользовательский код с 264-битными векторами, они используют 16 КБ кеш-память инструкций и 64 КБ временной памяти (Scratch Pad Memory). Каждый из 4 блоков ядер имеет доступ к 8 ГБ оперативной памяти DDR3–2133, таким образом, в узле установлено 32 ГБ ОЗУ с общей пропускной способностью до 136,5 ГБ/с.
Производительность SIMD-вычислений на ядрах MPE составляет 16 плавающих операций двойной точности (64-бита) за такт, на ядрах CPE — 8 операций за такт. Общая производительность MPE-ядер на частоте 1.45 ГГц может достигать 23.2 гигафлопсов, CPE-ядер — 11,6 гфлопс.
Всего в суперкомпьютере используется более 10,6 миллионов ядер в составе 40960 однопроцессорных узлов в 40 вычислительных стойках. В каждой стойке установлено 4 суперузла, суперузел состоит из 32 модулей по 8 узлов на каждом. Модули имеют водяное охлаждение. Подробностей об основной сети суперкомпьютера немного, известно, что каждый чип SW26010 имеет PCI Express 3 (16x) подключение к трёхуровневой сети «Sunway Network». Диаметр сети — 7, «bisection bandwidth» — 70 ТБ/с. Донгарра сообщил, что используются чипы Host Channel Adapter и коммутаторов компании Mellanox, с пропускной способностью канала на уровне около 12 ГБ/с (100 Гбит/с) и задержками порядка 1 мкс.
Вычислительная эффективность на тесте HPL (Linpack) составила 74% от теоретической производительности. В то же время на тесте HPCG система показала лишь 0.3% от пикового уровня, что свидетельствует об относительно медленной памяти и недостаточной пропускной способности сети. Для SW26010 соотношение пиковых флопсов к пропускной способности памяти составляет 22.4 флоп/байт (для сравнения, у Intel Knights Landing 7.2 флоп/байт). Также Донгарра отметил, что в системе сравнительно немного оперативной памяти, всего 1.3 ПБ (у Tianhe-2 — 1.4 ПБ, у американского Titan, занимающего уже 3-е место в Top500 — 0.71 ПБ)
Среднее энергопотребление суперкомпьютера во время исполнения теста HPL составляло 15,3 МВт (что несколько меньше чем 17 МВт у Tianhe-2), максимальное — чуть менее 18 МВт. По оценкам Донгарры, энергоэффективность составила 6 гигафлопс на Ватт (учитывалось потребление процессора, памяти и сети). Вероятно, новый суперкомпьютер сможет занять одно из первых мест в рейтинге green500.org (на ноябрь 2015 наиболее энергоэффективным был RIKEN Shoubu c 7 гфлопс/Вт).
Операционная система суперкомпьютера, Sunway Raise OS 2.0.5, основана на Linux. Пользователям предлагаются компиляторы C/C++, Fortran, утилиты автоматической векторизации, математические библиотеки. Утилита Sunway OpenACC предлагает поддержку стандарта OpenACC 2.0 для упрощения программирования многоядерных процессоров.
Стоимость создания суперкомпьютера — 1.8 млрд юаней, около 270 миллионов долларов США.
Наиболее подробная информация о суперкомпьютере доступна в статье основателя рейтинга Джека Донгарры: Jack Dongarra, Report on the Sunway TaihuLight System, June 2016, http://www.netlib.org/utk/people/JackDongarra/PAPERS/sunway-report-2016.pdf; иллюстрации из статьи «The Sunway TaihuLight Supercomputer: System and Applications», by Fu H H, Liao J F, Yang J Z, et al., принятой к публикации в Sci. China Inf. Sci., 2016, 59(7): 072001, doi: 10.1007/s11432–016–5588–7.
Также опубликовано несколько слайдов из презентации TOP500 & Green500 Awards на ISC 2016: