[Перевод] Пошаговое повышение производительности алгоритма
Недавно мне довелось работать над новым алгоритмом приближённого поиска ближайших соседей, который называется RaBitQ. Автор этого алгоритма уже предоставил достаточно скоростную реализацию на C++. Я попытался переписать этот алгоритм на Rust (ещё один случай «а почему бы не переписать на Rust»). Однако, я обнаружил, что моя реализация гораздо медленнее оригинальной. Далее я расскажу, как шаг за шагом доработал её производительность.
Подготовка среды
Датасеты
В данном случае максимально важно подобрать адекватные датасеты. Поскольку в вышеупомянутой статье, описывающей реализацию на C++, уже продемонстрированы некоторые результаты по датасетам sift_dim128_1m_l2
и gist_dim960_1m_l2
, варианты с 128 и 960 измерениями считаем типичными, а 1_000_000
векторов должно хватить для расстановки контрольных точек. Эти датасеты можно скачать отсюда. (Да, я знаю, что на этом сайте не поддерживается TLS и обеспечивается скачивание только по FTP).
В этих датасетах используется формат fvecs/ivecs,
по сути он обычный векторный:
| dim (4 bytes) | vector (4 * dim bytes) |
| dim (4 bytes) | vector (4 * dim bytes) |
...
| dim (4 bytes) | vector (4 * dim bytes) |
Скрипт для чтения и записи можете скачать здесь.
Инструмент-профилировщик
Для профилирования кода Rust я пользуюсь инструментом samply. Он хорошо интегрируется с профилировщиком Firefox. Кроме того, работая с ним, можно поделиться с коллегами полученными результатами профилирования, выложив их в облако. Вот пример, в котором профилирована версия на C++. Наиболее распространённые представления — FlameGraph
и CallTree
. Не забудьте предоставить доступ для анализа событий производительности и увеличьте предел mlock
:
echo '1' | sudo tee /proc/sys/kernel/perf_event_paranoid
sudo sysctl kernel.perf_event_mlock_kb=2048
Вам также пригодится обозреватель компилятора GodBolt, в котором удобно сравнивать код функций сборки между C++ и Rust.
Профиль Cargo
Чтобы включить в релизную сборку отладочную информацию, можно добавить ещё один профиль в Cargo.toml
:
[profile.perf]
inherits = "release"
debug = true
codegen-units = 16
Удобство профилирования сильно зависит от того, каковы издержки на компиляцию, и как быстро выполняется программа.
У
cargo build
скорость компиляции выше, но код может выполняться медленнее, чем на чистом Pythoncargo build
--release выполняется быстро, но на его компиляцию может потребоваться много времени
Для расстановки контрольных точек у нас нет иных вариантов, кроме как использовать opt-level = 3.
Несколько раз мне встречался совет выставлять следующие настройки:
codegen-units = 1
lto = "fat"
panic = "abort"
Но в моей практике они лишь замедляли компиляцию и совершенно не улучшали производительность.
Инструменты для бенчмаркинга
Criterion — хороший инструмент для бенчмаркинга (расстановки контрольных точек), работа которого основана на статистических принципах. Я создал ещё один репозиторий, в котором сложил весь бенчмаркинговый код. Но, оказывается, весь материал нужно держать в одном и том же репозитории.
Здесь, в частности, следует отметить, что результаты бенчмаркинга получаются не очень стабильными. Я наблюдал разницу до ±10%, не внося никаких изменений в код. Если вы работаете на ноутбуке, то ситуация может быть даже хуже, поскольку из-за высокой температуры ЦП может работать с пониженной тактовой частотой.
Советую расставлять контрольные точки для нескольких разных параметров функции. Я в данном случае использую различные размерности. Если по всем размерностям результаты положительные, это обычно означает, что оптимизация проходит эффективно.
Метрики
Не забудьте с самого начала добавить несколько метрик. Многие баги и проблемы с производительностью можно выявить, если проверить метрики. Я напрямую использую AtomicU64
, поскольку актуальные требования просты. Позже, возможно, переключусь на метрики Prometheus.
Обратите внимание: если переборщить с метриками/логированием/трассировкой, это также может сказаться на производительности. Поэтому добавляйте их с осторожностью.
Ресурсы
Расставляя контрольные точки, я заметил, что сквозная величина QPS (запросы в секунду) крайне нестабильна. Буквально за ночь я мог получить 15% в сторону улучшения или деградации, даже не перекомпилируя код. Затем я заметил, что ЦП работают не совсем вхолостую, поскольку я использую VSCode + анализатор Rust. Создаётся впечатление, будто они не слишком сильно нагружают процессор, но их работа очень серьёзно отражается на результатах бенчмаркинга. Хотя я и работаю с Intel Core i7–13700K, у которого 8 высокопроизводительных и 8 энергоэффективных ядер, программа у нас однопоточная.
При помощи taskset я привязываю процесс к конкретному ядру ЦП. Поэтому на процессах не скажется смешанное распределение ядер.
Обратите внимание: ядра процессора Intel Core 13/14 страдают из-за нестабильности по причине очень высокого напряжения. Я исправил эту проблему на уровне BIOS.
На облачные виртуальные машины температура процессора, пожалуй, не влияет, но у облачных провайдеров могут действовать собственные политики пропуска тактов процессора и оверселлинга.
Пошаговое улучшение
Начинаем с упрощённой реализации
В моём первом релизе алгоритм RaBitQ был основан на алгебраической библиотеке под названием nalgebra. Такой выбор был обусловлен, прежде всего, тем, что для получения ортогональной матрицы мне требовалось задействовать QR-разложение, а это ключевой шаг алгоритма RaBitQ. Кроме того, в зрелой библиотеке для линейной алгебры предоставляется множество полезных функций для операций над матрицами и векторами — и мне эта библиотека действительно облегчила реализацию алгоритма. Представьте себе, каково в Python без библиотеки numpy реализовывать алгоритм, в рамках которого происходит перемножение, проецирование и разложение матриц. Это кошмар.
Я рассчитывал на хорошую производительность, поскольку nalgebra
оптимизирована для сценариев именно такого рода. Но по данным бенчмаркинга алгоритм работает гораздо медленнее, чем я ожидал. Думаю, он станет работать намного быстрее, если заново реализовать его с применением numpy
:(
По данным профилирования, здесь выполняется множество вызовов f32::clone()
. На них уходит примерно 33% всего времени или даже 44%, если сосредоточиться на функции query_one
. Здесь вспомню о том, что можно заранее выделять память для нескольких векторов и повторно использовать её при итерации — это довольно распространённый фокус. Поэтому вместо (x - y).norm_squared()
мне нужно заранее объявить другой вектор, в котором хранится результат (x - y)
, в итоге приобретающий вид x.sub_to(y, &mut z); z.norm_squared()
. См. коммит 23f9aff.
Здесь, как и в большинстве алгебраических библиотек, матрица хранится в порядке развёртывания по столбцам — и это значит, что перебор по столбцам получается быстрее, чем по строкам. Это немного раздражает, поскольку перед итерацией матрицу приходится транспонировать, а не при всех операциях с перемножением векторов/матриц удаётся обнаружить на этапе компиляции ошибку несовпадения размерности (1 x dyn
или dyn x 1
).
Целевой ЦП
В RaBitQ для оценки приблизительного расстояния используется бинарное скалярное произведение, которое вычисляется так:
fn binary_dot_product(x: &[u64], y: &[u64]) -> u32 {
assert_eq!(x.len(), y.len());
let mut res = 0;
for i in 0..x.len() {
res += (x[i] & y[i]).count_ones();
}
res
}
Я думал, что здесь u64:: count_ones () будет непосредственно использовать встроенные функции. Но оказывается, что я всё равно должен сам активировать фичу popcnt
на этапе компиляции. Это можно сделать при помощи RUSTFLAGS="-C target-feature=+popcnt"
, но я предпочитаю вариант RUSTFLAGS="-C target-cpu=native"
, при котором активируются сразу все фичи, поддерживаемые действующим ЦП. Правда, при этом также исчезает возможность переносить двоичный формат, но на данном этапе это нормально. В следующих разделах также требуется включить env, чтобы задействовать возможности AVX2.
Возможности вашего ЦП вы можете проверить следующей командой:
rustc --print=cfg -C target-cpu=native | rg target_feature
ОКМД
При поиске ближайших соседей ключевую роль играет функция расстояния, и в данном случае речь идёт об евклидовом расстоянии. Как правило, пользуемся квадратом расстояния L2, чтобы не приходилось брать квадратный корень. Вот как выглядит упрощённая реализация:
{
y.sub_to(x, &mut residual);
residual.norm_squared()
}
После профилирования я обнаружил, что f32::clone()
по-прежнему здесь. Проверив исходный код nalgebra, я выяснил, что по какой-то причине в этой библиотеке много clone
, почему — не знаю. Тогда я решил написать ОКМД вручную. К счастью, в hnswlib (популярная реализация алгоритма HNSW — поиск ближайших соседей с помощью маленького мира) такой функционал уже реализован.
В результате удаётся исключить f32::clone()
из вычисления расстояния, тогда показатель QPS для SIFT (масштабно-инвариантного преобразования признаков) улучшается на 28%. Убедитесь сами, посмотрите коммит 5f82fcc.
Мой ЦП не поддерживает AVX512, поэтому я пользуюсь версией AVX2. Можете посмотреть Steam Hardware Stats, здесь в разделе »Other Settings» (Другие настройки) указана поддержка ОКМД. У 100% пользователей есть SSE3, у 94,61% есть AVX2 и только у 13,06% пользователей есть AVX512F. Разумеется, эта статистика не вполне объективна, так как в большинстве ЦП Intel поддерживается AVX512, но геймеры — это никак не все пользователи.
Наиболее полезное руководство по работе с ОКМД —Intel Intrinsics Guide. Лучше скачать весь сайт, так как онлайн с ним работать не очень удобно. Во встроенных функциях не забывайте проверять показатели »latency» (задержка) и »throughput» (пропускная способность), иначе код может работать медленнее, чем в обычной версии.
Другой хороший ресурс — Шпаргалка по встроенным функциям x86. Хорошо подойдёт таким новичкам как я.
@ashvardanian написал пост о «масках», в котором рассказано, как решить проблему с хвостовыми элементами (требуется AVX512).
Добавьте это, чтобы код работал и на других платформах:
#[cfg(any(target_arch = "x86_64", target_arch = "x86"))]
{
if is_x86_feature_detected!("avx2") {
// Версия для AVX2
} else {
// обычная версия
}
}
В Rust есть несколько полезных пакетов, которые помогают ещё лучше писать cfg
для ОКМД, но пока давайте не усложнять.
Ещё об ОКМД
ОКМД напоминает молоток, так что теперь мне нужно поискать в коде гвозди, которые можно было бы им позабивать.
Можно переписать функцию
binarize_vector
под AVX2 как сделано в коммите f114fc1. Тогда показатель QPS для GIST улучшается на 32%.
Данная реализация по сравнению с исходной версией для C++, к тому же, не содержит ветвлений. При включённом opt-level=3
это может быть оптимизировано на уровне компилятора. См. ассемблерный код.
Как указал @andrewaylett, opt-level=3
позволяет оптимизировать вот это:
- let shift = if (i / 32) % 2 == 0 { 32 } else { 0 };
+ let shift = ((i >> 5) & 1) << 5; // противоположная версия, так как я храню бинарник в u64, где действует противоположный порядок старшинства, нежели в версии на C++
@NovaX впервые указал, что этот код эквивалентен i & 32, а эта версия более удобочитаемая.
Скалярное квантование
Чтобы дополнительно вычистить f32::clone()
из кода, я решил заменить ещё больше функций из nalgebra
на реализации, которые сам выполнил бы вручную. Наиболее распространённые из таких функций — min и max. Вот как выглядит версия из nalgebra
:
let lower_bound = residual.min();
let upper_bound = residual.max();
То же самое делается так:
fn min_max(vec: &[f32]) -> (f32, f32) {
let mut min = f32::MAX;
let mut max = f32::MIN;
for v in vec.iter() {
if *v < min {
min = *v;
}
if *v > max {
max = *v;
}
}
(min, max)
}
Я привык работать с f32::min()
и f32::max()
, поскольку они удобные. Но при работе с невозрастающими (неснижающимися) векторами if
оказывается более производительным.
Чтобы не перебирать вектор по несколько раз в пределах цепочки функций и, следовательно, не вычислять скалярное квантование в рамках разных итераций:
let y_scaled = residual.add_scalar(-lower_bound) * one_over_delta + &self.rand_bias;
let y_quantized = y_scaled.map(|v| v.to_u8().expect("convert to u8 error"));
let scalar_sum = y_quantized.iter().fold(0u32, |acc, &v| acc + v as u32);
можно написать следующий цикл:
{
let mut sum = 0u32;
for i in 0..vec.len() {
let q = ((vec[i] - lower_bound) * multiplier + bias[i]) as u8;
quantized[i] = q;
sum += q as u32;
}
sum
}
При скалярном квантовании можно быть уверенным, что f32
преобразуется в u8
, поэтому воспользуемся as u8
вместо to_u8().unwrap()
.
Коммит af39c1c и коммит d2d51b0 позволили улучшить QPS для GIST на 31%.
Следующую часть также можно переписать с применением ОКМД, что позволяет улучшить QPS для GIST на 12%:
Я также попытался заменить tr_mul
на ОКМД, то есть, применить векторную проекцию. Оказывается, что nalgebra
в данном случае использует BLAS, поэтому производительность остаётся без изменений.
Faer: ещё один алгебраический пакет
Изучая, как решить проблему с f32::clone()
, я обнаружил faer — ещё один алгебраический пакет для Rust. Он оптимизирован благодаря активному применению ОКМД и обеспечивает более высокую производительность при переборе по строкам и по столбцам. QR-разложение с ним также проходит гораздо быстрее, чем с nalgebra
. В коммите 0411821 мы смогли ускорить этап обучения.
Кроме того, теперь (после коммита 0d969bd) я могу использовать эти векторы как обычный сегмент, без ColRef
или RowRef
в качестве обёрток.
Должен признать, что, если бы использовал faer с самого начала, то избавился бы от множества проблем. В любом случае, этот опыт был для меня очень плодотворным.
Двоичное скалярное произведение
Я думал, что popcnt
уже решает проблему двоичного скалярного произведения, но на FlameGraph видно, что count_ones()
берёт всего 7% от binary_dot_product
. Хотя в AVX512 есть команда vpopcntq, я предпочёл бы воспользоваться симуляцией AVX2, так как она более распространена.
Вот хорошая справка по реализации popcnt для AVX2. В коммите edabd4a эта функция повторно реализована на Rust, благодаря чему удаётся улучшить QPS для GIST на 11%. Этот фокус работает лишь в случаях, когда у вектора более 256 измерений, то есть, 256 разрядов для двоичного представления.
Атрибут Inline
Атрибутом #[inline] пользуйтесь с осторожностью. Если добавить его ко всем функциям с ОКМД, то QPS для GIST улучшается на 5%.
Ввод/вывод
Здесь для начала дать небольшой контекст.
Современная реализация основана на алгоритме IVF, в котором используются k-средние для кластеризации векторов, и в памяти хранятся центроиды. Вектор запроса сравнивается только с кластерами, обладающими меньшим значением l2_squared_distance(query, centroid)
.
Есть параметр под названием n_probe
, от которого зависит, сколько ближайших кластеров будет прозондировано. При большом значении n_probe полнота увеличится, но QPS снизится.
В RaBitQ двоичное скалярное произведение используется для приблизительной оценки расстояния. Если значение ниже порогового, то алгоритм заново выполнит ранжирование, используя исходный квадрат расстояния L2 и соответствующим образом обновит порог.
Ранее я пользовался вариантом slice: select_nth_unstable, который только выбирает n ближайших соседей, но не сортирует их по порядку. Если затрагивать кластеры, расположенные далеко от запроса, то возрастает вероятность повторного ранжирования, а из-за этого возрастает вычислительная нагрузка для расчёта квадрата расстояния L2. При пересортировке выбранных n кластеров QPS для GIST улучшался на 4%.
Другой приём — отсортировать векторы в каждом кластере по расстоянию, отделяющему их от центроид. В коммите ea13ebc также удалось улучшить QPS для GIST на 4%.
Есть ряд метаданных, помогающих оценить приблизительное расстояние для каждого вектора:
factor_ip: f32
factor_ppc: f32
error: f32
x_c_distance_square: f32
Раньше для их хранения я использовал 4 Vecvector[i]
. Когда я скомбинировал их в одну структуру struct
в коммите bb440e3, показатель QPS для GIST улучшился на 2,5%. Срабатывает хорошо, поскольку это 4xf32, так что я могу использовать представление C напрямую:
#[derive(Debug, Clone, Copy, Default, Serialize, Deserialize)]
#[repr(C)]
struct Factor {
factor_ip: f32,
factor_ppc: f32,
error_bound: f32,
center_distance_square: f32,
}
К сожалению, faer
не поддерживает векторы u64
. Поэтому приходится сохранить двоичное представление вектора в Vec
. Когда я поменял его на Vec
в коммите 48236b2, показатель QPS для GIST улучшился на 2%.
Константные дженерики
В версии на C++ мы используем шаблон, чтобы сгенерировать код для разных измерений. Такая возможность также доступна и в Rust. Я не буду её пробовать, поскольку перекомпиляция кода для другого набора измерений может быть применима только в конкретных случаях, например, в компании, где используется небольшое фиксированное количество измерений. В общедоступной библиотеке лучше представлять пользователям универсальное решение, чтобы им не приходилось перекомпилировать код самостоятельно.
Другие инструменты
Существует сборник рецептов по проверке границ, в котором на нескольких примерах проиллюстрировано, как избавиться от проверки границ в безопасном Rust.
Я пробовал PGO и BOLT, но не добился никаких улучшений.
Переход на jemalloc или mimalloc также никак не поспособствовал производительности.
Заключение
ОКМД — отличный метод, если пользоваться им правильно
Ввод/вывод также важен, особенно для больших датасетов
У актуальной версии на множестве данных GIST производительность такая же, как и у версии на C++. Там, где я наращиваю использование ОКМД, в версии на C++ задействуются константные дженерики.