Релиз ядра Linux 4.14
После двух месяцев разработки Линус Торвальдс представил релиз ядра Linux 4.14. Среди наиболее заметных изменений: поддержка технологии AMD Secure Memory Encryption, возможность адресации до 128 Пб виртуальной памяти, поддержка алгоритма сжатия zstd, режим zero-copy для прямой передачи данных в сокеты из памяти процессов, включение в состав подсистемы HMM (Heterogeneous memory management).
В новую версию принято 13500 исправлений от 1300 разработчиков, размер патча — 51 Мб (изменения затронули 23024 файлов, добавлено 618312 строк кода, удалено 343899 строк). Около 32% всех представленных в 4.14 изменений связаны с драйверами устройств, примерно 32% изменений имеют отношение к обновлению кода специфичного для аппаратных архитектур, 8% связано с сетевым стеком, 3% — файловыми системами и 5% c внутренними подсистемами ядра.
Основные новшества:
- Дисковая подсистема, ввод/вывод и файловые системы
- Проведена большая работа по увеличению производительности подсистемы дисковых квот. Производительность создания файлов при включенных квотах в ext4 возросла примерно в два раза;
- В сетевой файловой системе CIFS добавлена поддержка чтения и записи расширенных атрибутов с использованием протокола SMB3;
- В Btrfs и SquashFS добавлена поддержка алгоритма сжатия zstd, который может рассматриваться как оптимальный компромисс, между быстрым, но неэффективым lz4 и медленным, но хорошо сжимающим xz. По сравнению с zlib/Deflate, zstd демонстрирует в 3–5 раз более высокую скорость сжатия и в два раза более быструю распаковку, при уровне сжатия выше на 10–15%.
- Добавлен новый флаг IOCB_NOWAIT, при установке которого асинхронные операции буферизированного блочного ввода/вывода выполняются по возможности как в неблокирующем режиме (например, без флага IOCB_NOWAIT могут блокироваться операции управления памятью);
- Виртуализация и безопасность
- Добавлена поддержка шифрования отдельных страниц памяти при помощи представленной в процессорах AMD технологии SME (Secure Memory Encryption). SME позволяет пометить страницы памяти как подлежащие шифрованию, после чего данные страницы будут автоматически зашифрованы при записи в DRAM и расшифрованы при чтении из DRAM;
- Из-за невостребованности и отсутствия сопровождающего удалён код системы виртуализации lguest, позволяющей загружать ядра Linux как пользовательский процесс;
- Добавлена возможность использования file capabilities в пространстве имён идентификаторов пользователя (user namespaces), что позволяет обойтись одним расширенным атрибутом security.capability для любого файла;
- Расширен перенесённый из патчей grsecurity плагин к GCC для рандомизации раскладки структур данных, который на этапе сборки делает непредсказуемым следование полей в структурах и затрудняет проведение атак, базирующихся на знании раскладки структур в ядре. Плагин теперь дополнительно автоматически выполняет перегруппировку элементов структур, состоящих целиком из указателей на функции;
- Сетевая подсистема
- Реализована возможность отправки данных в сетевой сокет в режиме zero-copy (вызов send с флагом MSG_ZEROCOPY), позволяющем организовать передачу данных по сети без промежуточной буферизации;
- Память и системные сервисы
- Добавлена система раскрутки стека ORC unwinder, позволяющая повысить надёжность трассировки стека в процессе отладки крахов ядра и увеличить качество анализа стека в момент применения live-патчей на предмет влияния подмены функции на выполняемые в текущий момент процессы. Выполнение раскрутки стека, т.е. определения цепочки вызовов, которые привели к текущему состоянию, является нетривиальной задачей в ядре, так как кроме вызова Си-функций приходится учитывать такие нюансы как вызовы из кода на ассемблере, прерывания и trap-исключения процессора;
- В cgroup добавлен режим гибкого управления потоками процесса (cgroup.type threaded), в дополнение к ранее применяемой группировки всех потоков одного процесса и управления этой группой как единым целым. В режиме cgroup.type потоки одного процесса не обязаны входить в одну группу и могут быть разнесены по разным группам, но все из этих групп должны быть с типом threaded и размещаться в одной иерархии cgroup;
- В подсистему RDMA, предоставляющую похожие на DMA возможности для организации прямого доступа к памяти другого компьютера, добавлен новый API для использования из пространства пользователя через ioctl ();
- В системный вызов membarrier (), обеспечивающий установку барьеров на память для всех работающих в системе потоков, добавлен режим MEMBARRIER_CMD_SHARED_EXPEDITED, позволяющий значительно ускорить выполнение вызова ценой применения IPI (inter-processor interrupt);
- В системный вызов madvise (), предоставляющий средства для оптимизации управления памятью процесса, добавлена опция MADV_WIPEONFORK, при которой после выполнении fork () указанный регион памяти будет получен дочерним процессов в обнулённом виде;
- Для архитектуры x86 реализована поддержка пятиуровневых таблиц страниц памяти c 56-битной адресацией, позволяющих управлять до 128 Пб виртуального адресного пространства на системах с 4 Пб физической памяти (ранее поддерживалось 256 Тб и 64 Тб соответственно);
- В системе динамического управления частотой процессора (cpufreq) появилась возможность раздельного управления каждым CPU, что позволяет улучшить управление питанием и повысить отзывчивость при изменениях нагрузки;
- Продолжена оптимизация процесса вытеснения в раздел подкачки больших страниц памяти (Transparent Huge-Pages). Обеспечено откладывание разбиения больших страниц на маленькие до момента фактической записи в раздел подкачки или чтения из него, что позволило поднять пропускную способность вывода в раздел подкачки на 42% за счёт уменьшения конфликтов блокировок;
- Добавлена поддержка подсистемы Heterogeneous memory management (HMM), позволяющей использовать устройства с собственными блоками управления памятью (MMU, memory management unit), которые могут получать доступ к основной памяти. Например, при помощи HMM можно организовать совместное адресное пространство между GPU и CPU, в котором GPU может получить доступ к основной памяти процесса;
- Оборудование
- В DRM-драйвере (Direct Rendering Manager) Nouveau добавлены средства для управления видеорежимами для GPU GP108 (GeForce GT 1030)
- В DRM-драйвере AMDGPU добавлена начальная поддержка больших страниц памяти (hugepage) и продолжена реализация поддержки GPU Radeon RX Vega;
- В DRM-драйвер для GPU Intel продолжена реализация поддержки грядущих процессоров на базе микроархитектуры Intel Cannonlake, улучшен код для выполнения сброса GPU, добавлена поддержка CCS (color compression) для буфера отрисовки следующего кадра.
- Поддержка звуковых кодеков Realtek RT274, Wolfson Microelectronics WM8524 и Cirrus Logic CS43130;
- Поддержка USB-контроллеров Atheros ath10k и Ralink USB PHY;
- Добавлен драйвер «rtlwifi» для беспроводных карт на базе чипов Realtek RTL8822BE (802.11ac);
- Поддержка встроенных в CPU Allwinner и Freescale i.MX генераторов псевдослучайных чисел, а также средств ускорения криптографии по эллиптическим кривым в чипах Microchip и Atmel;
- Поддержка Ethernet-контроллеров Hisilicon HNS3, Rockchip, Marvell CP110 и Adaptrum Anarion GMAC, а также беспроводных адаптеров Realtek RTL8822BE;
- Подсистема драйверов IRDA (поддержка инфракрасного порта) перемещена в ветку staging с целью дальнейшего удаления из ядра (драйвер на уровне ядра не востребован, так как все приложения используют реализацию в пространстве пользователя);
- Из основного ядра в репозиторий linux-firmware вынесен набор прошивок, ранее поставляемых в каталоге «firmware/». По сути, решено объединить в одном месте разрозненные прошивки, часть которых поставлялась в архиве с ядром, а часть в пакете linux-firmware. Набор прошивок в ядре продолжал поставляться по историческим причинам, но не обновлялся с 2013 года — вся связанная с прошивками активность была перемещена в репозиторий linux-firmware, который ныне рассматривается как актуальный источник прошивок.
© OpenNet