Релиз ядра Linux 4.14

После двух месяцев разработки Линус Торвальдс представил релиз ядра Linux 4.14. Среди наиболее заметных изменений: поддержка технологии AMD Secure Memory Encryption, возможность адресации до 128 Пб виртуальной памяти, поддержка алгоритма сжатия zstd, режим zero-copy для прямой передачи данных в сокеты из памяти процессов, включение в состав подсистемы HMM (Heterogeneous memory management).

В новую версию принято 13500 исправлений от 1300 разработчиков, размер патча — 51 Мб (изменения затронули 23024 файлов, добавлено 618312 строк кода, удалено 343899 строк). Около 32% всех представленных в 4.14 изменений связаны с драйверами устройств, примерно 32% изменений имеют отношение к обновлению кода специфичного для аппаратных архитектур, 8% связано с сетевым стеком, 3% — файловыми системами и 5% c внутренними подсистемами ядра.

Основные новшества:

  • Дисковая подсистема, ввод/вывод и файловые системы
    • Проведена большая работа по увеличению производительности подсистемы дисковых квот. Производительность создания файлов при включенных квотах в ext4 возросла примерно в два раза;
    • В сетевой файловой системе CIFS добавлена поддержка чтения и записи расширенных атрибутов с использованием протокола SMB3;
    • В Btrfs и SquashFS добавлена поддержка алгоритма сжатия zstd, который может рассматриваться как оптимальный компромисс, между быстрым, но неэффективым lz4 и медленным, но хорошо сжимающим xz. По сравнению с zlib/Deflate, zstd демонстрирует в 3–5 раз более высокую скорость сжатия и в два раза более быструю распаковку, при уровне сжатия выше на 10–15%.
    • Добавлен новый флаг IOCB_NOWAIT, при установке которого асинхронные операции буферизированного блочного ввода/вывода выполняются по возможности как в неблокирующем режиме (например, без флага IOCB_NOWAIT могут блокироваться операции управления памятью);
  • Виртуализация и безопасность
    • Добавлена поддержка шифрования отдельных страниц памяти при помощи представленной в процессорах AMD технологии SME (Secure Memory Encryption). SME позволяет пометить страницы памяти как подлежащие шифрованию, после чего данные страницы будут автоматически зашифрованы при записи в DRAM и расшифрованы при чтении из DRAM;
    • Из-за невостребованности и отсутствия сопровождающего удалён код системы виртуализации lguest, позволяющей загружать ядра Linux как пользовательский процесс;
    • Добавлена возможность использования file capabilities в пространстве имён идентификаторов пользователя (user namespaces), что позволяет обойтись одним расширенным атрибутом security.capability для любого файла;
    • Расширен перенесённый из патчей grsecurity плагин к GCC для рандомизации раскладки структур данных, который на этапе сборки делает непредсказуемым следование полей в структурах и затрудняет проведение атак, базирующихся на знании раскладки структур в ядре. Плагин теперь дополнительно автоматически выполняет перегруппировку элементов структур, состоящих целиком из указателей на функции;
  • Сетевая подсистема
    • Реализована возможность отправки данных в сетевой сокет в режиме zero-copy (вызов send с флагом MSG_ZEROCOPY), позволяющем организовать передачу данных по сети без промежуточной буферизации;
  • Память и системные сервисы
    • Добавлена система раскрутки стека ORC unwinder, позволяющая повысить надёжность трассировки стека в процессе отладки крахов ядра и увеличить качество анализа стека в момент применения live-патчей на предмет влияния подмены функции на выполняемые в текущий момент процессы. Выполнение раскрутки стека, т.е. определения цепочки вызовов, которые привели к текущему состоянию, является нетривиальной задачей в ядре, так как кроме вызова Си-функций приходится учитывать такие нюансы как вызовы из кода на ассемблере, прерывания и trap-исключения процессора;
    • В cgroup добавлен режим гибкого управления потоками процесса (cgroup.type threaded), в дополнение к ранее применяемой группировки всех потоков одного процесса и управления этой группой как единым целым. В режиме cgroup.type потоки одного процесса не обязаны входить в одну группу и могут быть разнесены по разным группам, но все из этих групп должны быть с типом threaded и размещаться в одной иерархии cgroup;
    • В подсистему RDMA, предоставляющую похожие на DMA возможности для организации прямого доступа к памяти другого компьютера, добавлен новый API для использования из пространства пользователя через ioctl ();
    • В системный вызов membarrier (), обеспечивающий установку барьеров на память для всех работающих в системе потоков, добавлен режим MEMBARRIER_CMD_SHARED_EXPEDITED, позволяющий значительно ускорить выполнение вызова ценой применения IPI (inter-processor interrupt);
    • В системный вызов madvise (), предоставляющий средства для оптимизации управления памятью процесса, добавлена опция MADV_WIPEONFORK, при которой после выполнении fork () указанный регион памяти будет получен дочерним процессов в обнулённом виде;
    • Для архитектуры x86 реализована поддержка пятиуровневых таблиц страниц памяти c 56-битной адресацией, позволяющих управлять до 128 Пб виртуального адресного пространства на системах с 4 Пб физической памяти (ранее поддерживалось 256 Тб и 64 Тб соответственно);
    • В системе динамического управления частотой процессора (cpufreq) появилась возможность раздельного управления каждым CPU, что позволяет улучшить управление питанием и повысить отзывчивость при изменениях нагрузки;
    • Продолжена оптимизация процесса вытеснения в раздел подкачки больших страниц памяти (Transparent Huge-Pages). Обеспечено откладывание разбиения больших страниц на маленькие до момента фактической записи в раздел подкачки или чтения из него, что позволило поднять пропускную способность вывода в раздел подкачки на 42% за счёт уменьшения конфликтов блокировок;
    • Добавлена поддержка подсистемы Heterogeneous memory management (HMM), позволяющей использовать устройства с собственными блоками управления памятью (MMU, memory management unit), которые могут получать доступ к основной памяти. Например, при помощи HMM можно организовать совместное адресное пространство между GPU и CPU, в котором GPU может получить доступ к основной памяти процесса;
  • Оборудование
    • В DRM-драйвере (Direct Rendering Manager) Nouveau добавлены средства для управления видеорежимами для GPU GP108 (GeForce GT 1030)
    • В DRM-драйвере AMDGPU добавлена начальная поддержка больших страниц памяти (hugepage) и продолжена реализация поддержки GPU Radeon RX Vega;
    • В DRM-драйвер для GPU Intel продолжена реализация поддержки грядущих процессоров на базе микроархитектуры Intel Cannonlake, улучшен код для выполнения сброса GPU, добавлена поддержка CCS (color compression) для буфера отрисовки следующего кадра.
    • Поддержка звуковых кодеков Realtek RT274, Wolfson Microelectronics WM8524 и Cirrus Logic CS43130;
    • Поддержка USB-контроллеров Atheros ath10k и Ralink USB PHY;
    • Добавлен драйвер «rtlwifi» для беспроводных карт на базе чипов Realtek RTL8822BE (802.11ac);
    • Поддержка встроенных в CPU Allwinner и Freescale i.MX генераторов псевдослучайных чисел, а также средств ускорения криптографии по эллиптическим кривым в чипах Microchip и Atmel;
    • Поддержка Ethernet-контроллеров Hisilicon HNS3, Rockchip, Marvell CP110 и Adaptrum Anarion GMAC, а также беспроводных адаптеров Realtek RTL8822BE;
    • Подсистема драйверов IRDA (поддержка инфракрасного порта) перемещена в ветку staging с целью дальнейшего удаления из ядра (драйвер на уровне ядра не востребован, так как все приложения используют реализацию в пространстве пользователя);
    • Из основного ядра в репозиторий linux-firmware вынесен набор прошивок, ранее поставляемых в каталоге «firmware/». По сути, решено объединить в одном месте разрозненные прошивки, часть которых поставлялась в архиве с ядром, а часть в пакете linux-firmware. Набор прошивок в ядре продолжал поставляться по историческим причинам, но не обновлялся с 2013 года — вся связанная с прошивками активность была перемещена в репозиторий linux-firmware, который ныне рассматривается как актуальный источник прошивок.

© OpenNet