Во что компилятор C++ превращает код, или ускоряем код безопасно
Привет, Хабр! Меня зовут Алексей Салтыков, я инженер-программист в команде КОМПАС-3D. Решил поделиться соображениями насчет оптимизаций в С++ глазами обычного разработчика. Хочется сразу предупредить, что статья никого ни к чему не призывает, цель — наглядно показать, как незначительные трансформации кода могут помочь компилятору лучше оптимизировать код и насколько это вообще эффективно.
Дисклеймер:
Примеры кода нацелены на сохранение семантики. Подразумевается, что для внешнего пользователя способ работы с кодом не поменяется.
Некоторые примеры могут не содержать оптимизации, о которых говорилось ранее. Это сделано намеренно, чтобы подчеркнуть именно ту оптимизацию, о которой говорится здесь и сейчас.
Приведенные оптимизации не исправят проблемы производительности, связанные с неэффективной архитектурой или высокой асимптотической сложностью.
Эффект от приведенных практик может быть незначительным в рамках небольшого участка кода. Заметных улучшений можно добиться только большом в масштабе.
Будет много ассемблера (куда же без него? ).
Для получения результатов использовался clang 18.1 с флагами -std=c++20 -O3
Нет информации — нет оптимизаций
Рассмотрим простой пример. Мы написали функцию, которая на вход принимает две точки. Находим среднюю точку и, если обе ее координаты не равны нулю, возвращаем ее, иначе — точку с координатами (-1, -1). Код будет выглядеть примерно так:
#include "Point.hpp"
#include "GeometryAlgorithm.hpp"
Point GetSomePoint(Point p1, Point p2)
{
Point p = Middle(p1, p2);
return p.GetX() != 0 and p.GetY() != 0 ? p : Point{-1, -1};
}
Если вставить содержимое #include, то получим следующее:
class Point
{
private:
double m_x;
double m_y;
public:
Point(double x, double y);
double GetX() const;
double GetY() const;
};
Point Middle(Point p1, Point p2);
Point GetSomePoint(Point p1, Point p2)
{
Point p = Middle(p1, p2);
return p.GetX() != 0 and p.GetY() != 0
? p
: Point{-1, -1};
}
Именно так компилятор и будет видеть наш файл, препроцессор при виде директивы #include фактически просто копирует содержимое указанного файла. После компиляции (и дизассемблирования) в объектном файле будет следующий код:
.LCPI0_0:
.quad 0xbff0000000000000
.LCPI0_1:
.quad 0x0000000000000000
GetSomePoint(Point, Point):
sub rsp, 40
call Middle(Point, Point)@PLT
movsd qword ptr [rsp], xmm0
movsd qword ptr [rsp + 8], xmm1
mov rdi, rsp
call Point::GetX() const@PLT
xorpd xmm1, xmm1
ucomisd xmm0, xmm1
jne .LBB0_1
jnp .LBB0_3
.LBB0_1:
mov rdi, rsp
call Point::GetY() const@PLT
ucomisd xmm0, qword ptr [rip + .LCPI0_1]
jne .LBB0_2
jnp .LBB0_3
.LBB0_2:
movups xmm0, xmmword ptr [rsp]
movaps xmmword ptr [rsp + 16], xmm0
movsd xmm0, qword ptr [rsp + 16]
movsd xmm1, qword ptr [rsp + 24]
add rsp, 40
ret
.LBB0_3:
lea rdi, [rsp + 16]
movsd xmm0, qword ptr [rip + .LCPI0_0]
movaps xmm1, xmm0
call Point::Point(double, double)@PLT
movsd xmm0, qword ptr [rsp + 16]
movsd xmm1, qword ptr [rsp + 24]
add rsp, 40
ret
В ассемблерном коде можно явно найти выделение памяти на стеке для промежуточного результата (переменная p), вызовы функций Point: GetX (), Point: GetY (), Middle и конструктора.
Уже стоит обратить внимание на то, что передача аргументов нашей функции в функцию Middle произошла бесплатно. И правда, перекладывать ничего не нужно, они уже находятся там, где должны. Давайте ради интереса усложним задачу и поменяем их местами:
Point GetSomePoint(Point p1, Point p2)
{
Point p = Middle(p2, p1);
Тогда получим следующее:
.LCPI0_0:
.quad 0xbff0000000000000
.LCPI0_1:
.quad 0x0000000000000000
GetSomePoint(Point, Point):
sub rsp, 40
movaps xmm4, xmm1
movaps xmm5, xmm0
movapd xmm0, xmm2
movapd xmm1, xmm3
movaps xmm2, xmm5
movaps xmm3, xmm4
call Middle(Point, Point)@PLT
movsd qword ptr [rsp], xmm0
movsd qword ptr [rsp + 8], xmm1
mov rdi, rsp
call Point::GetX() const@PLT
xorpd xmm1, xmm1
ucomisd xmm0, xmm1
jne .LBB0_1
jnp .LBB0_3
.LBB0_1:
mov rdi, rsp
call Point::GetY() const@PLT
ucomisd xmm0, qword ptr [rip + .LCPI0_1]
jne .LBB0_2
jnp .LBB0_3
.LBB0_2:
movups xmm0, xmmword ptr [rsp]
movaps xmmword ptr [rsp + 16], xmm0
movsd xmm0, qword ptr [rsp + 16]
movsd xmm1, qword ptr [rsp + 24]
add rsp, 40
ret
.LBB0_3:
lea rdi, [rsp + 16]
movsd xmm0, qword ptr [rip + .LCPI0_0]
movaps xmm1, xmm0
call Point::Point(double, double)@PLT
movsd xmm0, qword ptr [rsp + 16]
movsd xmm1, qword ptr [rsp + 24]
add rsp, 40
ret
Стало только хуже: D. Теперь можно и приступить к оптимизациям.
В реальном коде ситуация, когда аргументы функции сразу же передаются в другую функцию в неизменном виде, не так часто встречается. Поэтому в таком виде пример выглядит более правдоподобно.
Рассмотрим происходящее с точки зрения предметной области (пусть и скудной). Что делают функции GetX () и GetY () нам очевидно. То же касается и порядка аргументов функции Middle () — он не важен, так как результат останется такой же. Это очевидно нам, но не компилятору.
Довольно распространенная практика на языках С и С++ — разделять файлы на заголовочные и реализацию. В данном случае так и происходит. Реализация методов класса Point и функции Middle находятся в других файлах. В данной единице трансляции нет никакой информации о том, что эти функции делают. Это значительно ограничивает компилятор в оптимизациях.
Такой подход оправдан (я его не критикую), это как минимум полезно для скорости компиляции. Тем не менее, давайте попробуем дать компилятору информацию о тривиальных функциях. Для этого перенесем реализацию в заголовочный файл и добавим ключевое слово inline для соблюдения ODR — one definition rule. То же самое сделаем и для конструктора.
class Point
{
private:
double m_x;
double m_y;
public:
inline Point(double x, double y)
: m_x(x)
, m_y(y)
{}
inline double GetX() const { return m_x; }
inline double GetY() const { return m_y; }
};
Результат впечатляет:
.LCPI0_0:
.quad 0xbff0000000000000
GetSomePoint(Point, Point):
push rax
movaps xmm4, xmm1
movapd xmm5, xmm0
movapd xmm0, xmm2
movapd xmm1, xmm3
movapd xmm2, xmm5
movaps xmm3, xmm4
call Middle(Point, Point)@PLT
xorpd xmm2, xmm2
movapd xmm3, xmm1
cmpneqpd xmm3, xmm2
cmpneqpd xmm2, xmm0
andpd xmm2, xmm3
movd eax, xmm2
test al, 1
jne .LBB0_2
movsd xmm0, qword ptr [rip + .LCPI0_0]
movapd xmm1, xmm0
.LBB0_2:
pop rax
ret
Не будем останавливаться и сделаем то же для функции `Middle`:
inline Point Middle(Point p1, Point p2)
{
double x = p1.GetX() / 2 + p2.GetX() / 2;
double y = p1.GetY() / 2 + p2.GetY() / 2;
return Point{x, y};
}
Итого получаем следующее:
.LCPI0_0:
.quad 0x3fe0000000000000
.quad 0x3fe0000000000000
.LCPI0_1:
.quad 0xbff0000000000000
.quad 0xbff0000000000000
GetSomePoint(Point, Point):
unpcklpd xmm2, xmm3
movapd xmm3, xmmword ptr [rip + .LCPI0_0]
mulpd xmm2, xmm3
unpcklpd xmm0, xmm1
mulpd xmm0, xmm3
addpd xmm0, xmm2
xorpd xmm1, xmm1
movapd xmm2, xmm0
cmpneqpd xmm2, xmm1
movapd xmm3, xmm0
unpckhpd xmm3, xmm0
cmpneqpd xmm3, xmm1
andpd xmm3, xmm2
pshufd xmm2, xmm3, 68
andpd xmm0, xmm2
andnpd xmm2, xmmword ptr [rip + .LCPI0_1]
orpd xmm2, xmm0
pshufd xmm1, xmm2, 238
movapd xmm0, xmm2
ret
Результат стал не таким тривиальным, как был до этого. Но даже при беглом осмотре становится понятно, что работать это будет значительно быстрее. Главное, на что стоит обратить внимание, это прямое обращение к полям класса без вызова getter-ов.
Мы получили то, что хотели. Код теперь будет работать быстрее, при этом семантика полностью сохранена. Всю сложную работу сделал компилятор, а исходный вид нашей функции остался неизменным.
Point GetSomePoint(Point p1, Point p2)
{
Point p = Middle(p2, p1);
return p.GetX() != 0 and p.GetY() != 0 ? p : Point{-1, -1};
}
Стоит указать на некоторые важные вещи:
В данном примере функции тривиальные, что позволяет получить улучшение производительности практически бесплатно. В реальности (к сожалению) это не всегда уместно, поскольку скорость компиляции пострадает многократно, а оптимизации будут незаметны.
Link time optimization не рассматриваем специально, речь в статье идет именно о преобразовании исходного кода.
Существует мнение, что inline расставлять не стоит, компилятор лучше знает, где его надо использовать. Это правда, но лишь отчасти. Компилятор и правда лучше знает, но фактически ключевое слово inline используется только для ODR. Большинство современных компиляторов его игнорируют (уже достаточно давно) и строят оптимизации по своим правилам.
virtual
Избитый всеми (и мной тоже) пример с фигурами. У нас есть фигура, и в очередной раз надо вычислять ее площадь. Будем смотреть только на квадрат.
class Figure
{
public:
virtual ~Figure() = default;
virtual double Area() const = 0;
};
class Square : public Figure
{
private:
double m_size;
public:
virtual double Area() const override { return m_size * m_size; }
};
Напишем элементарную функцию:
double CalculateSomeArea(const Square* s)
{
return s != nullptr ? s->Area() * 2 : 0;
}
Получаем следующее:
CalculateSomeArea(Square const*):
test rdi, rdi
je .LBB0_1
push rax
mov rax, qword ptr [rdi]
call qword ptr [rax + 16]
addsd xmm0, xmm0
add rsp, 8
ret
.LBB0_1:
xorps xmm0, xmm0
ret
Стоит обратить внимание на:
call qword ptr [rax + 16]
Это вызов виртуальной функции. В данном случае нам не поможет inline, даже несмотря на то, что тип объекта мы знаем (аргумент функции — Square). Причина в том, что компилятор делает предположение, что может быть какой-то наследник класса Square, который эту функцию переопределяет.
Его нет и быть не может. Скажем об этом прямо:
class Square final : public Figure
// ~~~~~
Если же есть, например, квадрат с именем, который не переопределяет метод `Area ()`, то можно сделать замену `override → final`:
virtual double Area() const final { return m_size * m_size; }
Оба способа дают одинаковый результат:
CalculateSomeArea(Square const*):
test rdi, rdi
je .LBB0_1
movsd xmm0, qword ptr [rdi + 8]
mulsd xmm0, xmm0
addsd xmm0, xmm0
ret
.LBB0_1:
xorps xmm0, xmm0
ret
За счет того, что компилятор знает содержимое функции, а сама функция не переопределена, ее содержимое раскрывается по месту вызова. Благодаря этому мы избегаем ненужных операций.
Отсюда получается довольно интересный эффект:
class Figure
{
public:
virtual ~Figure() = default;
virtual double Area() const = 0;
};
class Square : public Figure
{
private:
double m_size;
public:
Square(double size)
: m_size(size)
{
}
virtual double Area() const override
{
return m_size * m_size;
}
};
void SetSomeNumber(double);
inline double FigureArea(const Figure* f)
{
return f != nullptr ? f->Area() : 0;
}
void SomeCode(double value)
{
Square s(value);
double num = FigureArea(&s);
SetSomeNumber(num);
}
Весь код сверху превращается в это:
SomeCode(double):
mulsd xmm0, xmm0
jmp SetSomeNumber(double)@PLT
Красиво, не правда ли? Мы сохранили абстракции, но при этом получили максимально производительный код.
Может произойти что угодно
class Bar
{
private:
int m_int;
double m_double;
public:
Bar();
~Bar();
int foo() const;
};
int SomeCode()
{
Bar bar;
return bar.foo();
}
Обычный код. Есть какой-то класс, у него есть какой-то метод. Мы его вызываем. Сразу скажу, inline тут не причем. Давайте посмотрим, что может пойти не так:
SomeCode():
push rbx
sub rsp, 16
mov rbx, rsp
mov rdi, rbx
call Bar::Bar()@PLT
mov rdi, rbx
call Bar::foo() const@PLT
mov ebx, eax
mov rdi, rsp
call Bar::~Bar()@PLT
mov eax, ebx
add rsp, 16
pop rbx
ret
mov rbx, rax
mov rdi, rsp
call Bar::~Bar()@PLT
mov rdi, rbx
call _Unwind_Resume@PLT
DW.ref.__gxx_personality_v0:
.quad __gxx_personality_v0
Все было бы хорошо, если бы не одна деталь — код после ret. В нашем коде мы исключениями не пользуемся. Глазами разработчика, если ничего не намекает на исключения, их скорее всего нет. Со стороны компилятора — наоборот. Не написали явно, значит, исключения могут быть. По понятным причинам, компилятор обязан встроить дополнительный код для их обработки. Добавим то, чего не хватает — noexcept.
class Bar
{
// ...
Bar() noexcept;
~Bar();
int foo() const noexcept;
И все встает на свои места:
SomeCode():
push rbp
push rbx
sub rsp, 24
lea rbx, [rsp + 8]
mov rdi, rbx
call Bar::Bar()@PLT
mov rdi, rbx
call Bar::foo() const@PLT
mov ebp, eax
mov rdi, rbx
call Bar::~Bar()@PLT
mov eax, ebp
add rsp, 24
pop rbx
pop rbp
ret
За счет этого мы не только избавились от ненужного кода, но и лучше оптимизировали тот, который нам нужен.
Говоря простыми словами, компилятор разделяет код на части. Если какая-то функция может бросить исключение, то код до нее и после разделяется на разные фрагменты, а оптимизации применяются к каждому фрагменту отдельно. В действительности все устроено значительно сложнее, но этого достаточно, чтобы передать общую идею — даже неиспользуемый код может сделать гадость.
Эксперименты
Все мы любим эксперименты. И чтобы не быть голословным, напишем код и проверим. Будем писать игру, а точнее ее малую часть. Есть игровое поле, представленное в виде ячеек. Ячеек бывает два вида — море и суша. Напишем:
// Position.hpp
#pragma once
#include
#include
class Position
{
public:
Position(int x, int y);
int GetX() const;
int GetY() const;
bool operator==(const Position&) const = default;
bool operator!=(const Position&) const = default;
private:
int m_x;
int m_y;
};
namespace std {
template <>
struct hash
{
size_t operator()(const Position& pos) const
{
return (static_cast(pos.GetX()) << 32) + static_cast(pos.GetY());
}
};
} // namespace std
// Cell.hpp
#pragma once
enum class CellType
{
Ground,
Sea
};
class Cell
{
public:
Cell(CellType type);
CellType GetType() const;
private:
CellType m_type;
};
// Map.hpp
#pragma once
#include
#include
class Cell;
class Position;
class Map
{
public:
Map();
std::shared_ptr GetCellAt(const Position& pos) const;
int GetWidth() const;
int GetHeight() const;
private:
std::vector> m_cells;
int m_width;
int m_height;
}; |
Что-то похожее на правду получилось. Ячейки специально разместил в виде указателей. Предполагаем, что это какой-то сложный объект, и по значению мы его хранить не можем. Реализацию методов выкладывать не вижу смысла — они тривиальные. Теперь напишем алгоритм. У нас на карте есть суша и море. Мы хотим написать следующую функцию:
Для определенной позиции вычисляем размер острова (количество ячеек земли), на котором расположена указанная позиция. Если позиция указывает на море, возвращаем 0.
В качестве основы для алгоритма используем что-то похожее на поиск в глубину. Чтобы избежать переполнения стека, рекурсию использовать не будем. Получается следующий код:
#include "cell.hpp"
#include "map.hpp"
#include "position.hpp"
int GetGroundAreaAt(const Map& map, const Position& initialPos)
{
int result = 0;
std::unordered_set visited;
std::stack toVisit;
toVisit.emplace(initialPos);
while (not toVisit.empty())
{
Position pos = toVisit.top();
toVisit.pop();
if (pos.GetX() < 0 or pos.GetY() < 0 or pos.GetX() >= map.GetWidth() or pos.GetY() >= map.GetHeight())
{
continue;
}
auto insertRes = visited.insert(pos);
if (not insertRes.second)
{
continue;
}
auto c = map.GetCellAt(pos);
if (c->GetType() != CellType::Ground)
{
continue;
}
++result;
toVisit.emplace(pos.GetX() + 1, pos.GetY());
toVisit.emplace(pos.GetX() - 1, pos.GetY());
toVisit.emplace(pos.GetX(), pos.GetY() + 1);
toVisit.emplace(pos.GetX(), pos.GetY() - 1);
}
return result;
}
Проверять будем на карте размером 1000×1000. Заполняем случайно, с шансом 70% будет земля, так мы получим огромные острова (и долгое время выполнения : D). При проверке будем вызывать функцию для 100 случайных позиций. Сид для генерации устанавливаем фиксированный — 0. В результате время выполнения составляет 10.3 секунды. Кстати, максимальная площадь острова составила 700183 клетки (материк с лужами, а не острова в море), что объясняет такое время выполнения.
Теперь переделаем все методы классов Cell, Position и Map, они будут inline. Работа очевидная и в примерах кода не нуждается. Результат порадовал, время выполнения стало 9.2 секунды.
Не так впечатляет, как снижение сложности алгоритма или выполнение в несколько потоков, но тоже приятно — 10% без особых усилий. Как и говорилось в начале, подход не дает большого преимущества, но изменения в коде тривиальные, мы не рискуем что-то сломать. Разумеется, представленный алгоритм далек от идеала, но наша цель состояла в том, чтобы ускорить его без изменений. Если изменить алгоритм, время выполнения, естественно, будет ниже, но преимущество от описанных оптимизаций никуда не денется.
Бонус — range vs for
В качестве бонуса хочется поговорить про новинку С++20 (новинке уже 4 года…) — ranges. Давайте посмотрим, как их видит компилятор. Для начала сравним обычные алгоритмы и их аналоги в namespace std: ranges
bool HasZero(const std::vector& vi)
{
return std::any_of(vi.begin(),
vi.end(),
[](int x) { return x == 0; });
}
Тривиально, а в результате получаем это:
Скрытый текст
HasZero(std::vector> const&):
mov rdx, qword ptr [rdi]
mov rax, qword ptr [rdi + 8]
mov rdi, rax
sub rdi, rdx
mov rsi, rdi
sar rsi, 4
test rsi, rsi
jle .LBB0_8
and rdi, -16
mov rcx, rdi
add rcx, rdx
inc rsi
add rdx, 8
.LBB0_2:
cmp dword ptr [rdx - 8], 0
je .LBB0_17
cmp dword ptr [rdx - 4], 0
je .LBB0_18
cmp dword ptr [rdx], 0
je .LBB0_16
cmp dword ptr [rdx + 4], 0
je .LBB0_19
dec rsi
add rdx, 16
cmp rsi, 1
jg .LBB0_2
mov rdi, rax
sub rdi, rcx
sar rdi, 2
cmp rdi, 1
jne .LBB0_9
jmp .LBB0_15
.LBB0_8:
mov rcx, rdx
sar rdi, 2
cmp rdi, 1
je .LBB0_15
.LBB0_9:
cmp rdi, 2
je .LBB0_13
mov rdx, rax
cmp rdi, 3
jne .LBB0_16
cmp dword ptr [rcx], 0
je .LBB0_21
add rcx, 4
.LBB0_13:
cmp dword ptr [rcx], 0
je .LBB0_21
add rcx, 4
.LBB0_15:
cmp dword ptr [rcx], 0
cmovne rcx, rax
mov rdx, rcx
.LBB0_16:
cmp rdx, rax
setne al
ret
.LBB0_17:
add rdx, -8
cmp rdx, rax
setne al
ret
.LBB0_18:
add rdx, -4
cmp rdx, rax
setne al
ret
.LBB0_21:
mov rdx, rcx
cmp rdx, rax
setne al
ret
.LBB0_19:
add rdx, 4
cmp rdx, rax
setne al
ret
Выглядит не очень, попробуем аналог:
bool HasZero(const std::vector& vi)
{
return std::ranges::any_of(vi, [](int x) { return x == 0; });
}
HasZero(std::vector> const&):
mov rdx, qword ptr [rdi]
mov rcx, qword ptr [rdi + 8]
cmp rdx, rcx
je .LBB0_1
add rdx, 4
.LBB0_4:
cmp dword ptr [rdx - 4], 0
sete al
je .LBB0_2
lea rsi, [rdx + 4]
cmp rdx, rcx
mov rdx, rsi
jne .LBB0_4
.LBB0_2:
ret
.LBB0_1:
xor eax, eax
ret
Очевидно, где лучше. Посмотрим кое-что интересней:
int OddSum(const std::vector& vi)
{
int res = 0;
auto&& range = vi
| std::views::filter([](int x) { return x % 2 == 0; });
for (int i : range)
{
res += i;
}
return res;
}
Стоит сразу оговориться — accumulate я специально не использовал, важно показать влияние от применения фильтрации.
Посмотрим, что получилось:
OddSum(std::vector> const&):
mov rcx, qword ptr [rdi]
mov rdx, qword ptr [rdi + 8]
cmp rcx, rdx
je .LBB0_4
.LBB0_1:
test byte ptr [rcx], 1
je .LBB0_4
add rcx, 4
cmp rcx, rdx
jne .LBB0_1
xor eax, eax
ret
.LBB0_4:
xor eax, eax
.LBB0_5:
cmp rcx, rdx
je .LBB0_9
add eax, dword ptr [rcx]
.LBB0_8:
add rcx, 4
cmp rcx, rdx
je .LBB0_9
test byte ptr [rcx], 1
jne .LBB0_8
jmp .LBB0_5
.LBB0_9:
ret
Прекрасный код. Ничего лишнего, именно то, что я и написал. «Доделали!» — сказал я себе, радуясь, что новинка не только удобная, но и работать будет быстро.
«Ага, ЩАС!». Поверили? В статье про оптимизации в коде нет хитростей? Давайте проверим старый добрый цикл for, его точно доделали:
int OddSum(const std::vector& vi)
{
int res = 0;
for (int i : vi)
{
if (i % 2 == 0)
{
res += i;
}
}
return res;
}
Скрытый текст
.LCPI0_0:
.long 1
.long 1
.long 1
.long 1
OddSum(std::vector> const&):
mov r8, qword ptr [rdi]
mov rcx, qword ptr [rdi + 8]
cmp r8, rcx
je .LBB0_1
mov rdi, rcx
sub rdi, r8
add rdi, -4
xor edx, edx
cmp rdi, 28
jae .LBB0_5
xor eax, eax
mov rsi, r8
jmp .LBB0_8
.LBB0_1:
xor eax, eax
ret
.LBB0_5:
shr rdi, 2
inc rdi
mov r9, rdi
and r9, -8
lea rsi, [r8 + 4*r9]
pxor xmm0, xmm0
xor eax, eax
movdqa xmm3, xmmword ptr [rip + .LCPI0_0]
pxor xmm2, xmm2
pxor xmm1, xmm1
.LBB0_6:
movdqu xmm4, xmmword ptr [r8 + 4*rax]
movdqu xmm5, xmmword ptr [r8 + 4*rax + 16]
movdqa xmm6, xmm4
pand xmm6, xmm3
movdqa xmm7, xmm5
pand xmm7, xmm3
pcmpeqd xmm6, xmm0
pand xmm6, xmm4
paddd xmm2, xmm6
pcmpeqd xmm7, xmm0
pand xmm7, xmm5
paddd xmm1, xmm7
add rax, 8
cmp r9, rax
jne .LBB0_6
paddd xmm1, xmm2
pshufd xmm0, xmm1, 238
paddd xmm0, xmm1
pshufd xmm1, xmm0, 85
paddd xmm1, xmm0
movd eax, xmm1
cmp rdi, r9
je .LBB0_2
.LBB0_8:
mov edi, dword ptr [rsi]
test dil, 1
cmovne edi, edx
add eax, edi
add rsi, 4
cmp rsi, rcx
jne .LBB0_8
.LBB0_2:
ret
Выглядит страшно. Но этот код работает примерно в 12 раз быстрее за счет векторизации. Да, элементарный код будет лучше, мнимая красота того не стоит. Однако в защиту стоит сказать, где применение ranges реально может ускорить быстродействие:
inline auto Document::GetFiguresInRect(const Rect& rect) const
{
return std::views::all(m_figures)
| std::views::filter([&rect](const Figure* fig) { return fig->CollidesRect(rect); })
| std::views::transform([](auto&& i) -> const Figure* { return i; });
}
Документ содержит фигуры. Нам нужен список фигур, которые попадают в прямоугольник. Такой подход как минимум позволит избежать создания нового списка, то есть выделения памяти, что очень удобно.
Примечание: из-за своей специфики подобный подход опасен висячими ссылками, применять с осторожностью. Берегите свои ноги!
Итоги
Для простых функций применение inline может быть оправдано, например:
Тривиальные get/set
Простые функции
Не сложные вычисления
Для оптимизации работы виртуальных функций inline не всегда достаточно. Тем не менее, поставить у класса-наследника final может помочь компилятору лучше оптимизировать.
Если необходимо применить функцию STL на весь контейнер, есть смысл выбрать версию из namespace std: ranges.
Использование std: views вместо цикла for может быть оправдано только в тех случаях, когда мы избегаем создания нового контейнера. В остальных случаях обычный цикл будет как минимум не хуже.
Исключения достаточно хорошо оптимизированы, но не бесплатны. Если их нет и не будет — не лишним будет добавить noexcept.