Во что компилятор C++ превращает код, или ускоряем код безопасно

dac69afd9781ee8e2de66e330b8316d5.PNG

Привет, Хабр! Меня зовут Алексей Салтыков, я инженер-программист в команде КОМПАС-3D. Решил поделиться соображениями насчет оптимизаций в С++ глазами обычного разработчика. Хочется сразу предупредить, что статья никого ни к чему не призывает, цель — наглядно показать, как незначительные трансформации кода могут помочь компилятору лучше оптимизировать код и насколько это вообще эффективно.

Дисклеймер:

  • Примеры кода нацелены на сохранение семантики. Подразумевается, что для внешнего пользователя способ работы с кодом не поменяется.

  • Некоторые примеры могут не содержать оптимизации, о которых говорилось ранее. Это сделано намеренно, чтобы подчеркнуть именно ту оптимизацию, о которой говорится здесь и сейчас.

  • Приведенные оптимизации не исправят проблемы производительности, связанные с неэффективной архитектурой или высокой асимптотической сложностью.

  • Эффект от приведенных практик может быть незначительным в рамках небольшого участка кода. Заметных улучшений можно добиться только большом в масштабе.

  • Будет много ассемблера (куда же без него? ).

  • Для получения результатов использовался clang 18.1 с флагами -std=c++20 -O3

Нет информации — нет оптимизаций

647934420d1656fd095aac9c977c7dd4.PNG

Рассмотрим простой пример. Мы написали функцию, которая на вход принимает две точки. Находим среднюю точку и, если обе ее координаты не равны нулю, возвращаем ее, иначе — точку с координатами (-1, -1). Код будет выглядеть примерно так:

#include "Point.hpp"
#include "GeometryAlgorithm.hpp"

Point GetSomePoint(Point p1, Point p2)
{
  Point p = Middle(p1, p2);

  return p.GetX() != 0 and p.GetY() != 0 ? p : Point{-1, -1};
}

Если вставить содержимое #include, то получим следующее:

class Point
{
private:
  double m_x;
  double m_y;

public:
  Point(double x, double y);

  double GetX() const;
  double GetY() const;
};

Point Middle(Point p1, Point p2);

Point GetSomePoint(Point p1, Point p2)
{
  Point p = Middle(p1, p2);

  return p.GetX() != 0 and p.GetY() != 0 
       ? p 
       : Point{-1, -1};
}

Именно так компилятор и будет видеть наш файл, препроцессор при виде директивы #include фактически просто копирует содержимое указанного файла. После компиляции (и дизассемблирования) в объектном файле будет следующий код:

.LCPI0_0:
  .quad 0xbff0000000000000
.LCPI0_1:
  .quad 0x0000000000000000
GetSomePoint(Point, Point):
  sub rsp, 40
  call Middle(Point, Point)@PLT
  movsd qword ptr [rsp], xmm0
  movsd qword ptr [rsp + 8], xmm1
  mov rdi, rsp
  call Point::GetX() const@PLT
  xorpd xmm1, xmm1
  ucomisd xmm0, xmm1
  jne .LBB0_1
  jnp .LBB0_3
.LBB0_1:
  mov rdi, rsp
  call Point::GetY() const@PLT
  ucomisd xmm0, qword ptr [rip + .LCPI0_1]
  jne .LBB0_2
  jnp .LBB0_3
.LBB0_2:
  movups xmm0, xmmword ptr [rsp]
  movaps xmmword ptr [rsp + 16], xmm0
  movsd xmm0, qword ptr [rsp + 16]
  movsd xmm1, qword ptr [rsp + 24]
  add rsp, 40
  ret
.LBB0_3:
  lea rdi, [rsp + 16]
  movsd xmm0, qword ptr [rip + .LCPI0_0]
  movaps xmm1, xmm0
  call Point::Point(double, double)@PLT
  movsd xmm0, qword ptr [rsp + 16]
  movsd xmm1, qword ptr [rsp + 24]
  add rsp, 40
  ret

В ассемблерном коде можно явно найти выделение памяти на стеке для промежуточного результата (переменная p), вызовы функций Point: GetX (), Point: GetY (), Middle и конструктора.

Уже стоит обратить внимание на то, что передача аргументов нашей функции в функцию Middle произошла бесплатно. И правда, перекладывать ничего не нужно, они уже находятся там, где должны. Давайте ради интереса усложним задачу и поменяем их местами:

Point GetSomePoint(Point p1, Point p2)
{
  Point p = Middle(p2, p1);

Тогда получим следующее:

.LCPI0_0:
  .quad 0xbff0000000000000
.LCPI0_1:
  .quad 0x0000000000000000
GetSomePoint(Point, Point):
  sub rsp, 40
  movaps xmm4, xmm1
  movaps xmm5, xmm0
  movapd xmm0, xmm2
  movapd xmm1, xmm3
  movaps xmm2, xmm5
  movaps xmm3, xmm4
  call Middle(Point, Point)@PLT
  movsd qword ptr [rsp], xmm0
  movsd qword ptr [rsp + 8], xmm1
  mov rdi, rsp
  call Point::GetX() const@PLT
  xorpd xmm1, xmm1
  ucomisd xmm0, xmm1
  jne .LBB0_1
  jnp .LBB0_3
.LBB0_1:
  mov rdi, rsp
  call Point::GetY() const@PLT
  ucomisd xmm0, qword ptr [rip + .LCPI0_1]
  jne .LBB0_2
  jnp .LBB0_3
.LBB0_2:
  movups xmm0, xmmword ptr [rsp]
  movaps xmmword ptr [rsp + 16], xmm0
  movsd xmm0, qword ptr [rsp + 16]
  movsd xmm1, qword ptr [rsp + 24]
  add rsp, 40
  ret
.LBB0_3:
  lea rdi, [rsp + 16]
  movsd xmm0, qword ptr [rip + .LCPI0_0]
  movaps xmm1, xmm0
  call Point::Point(double, double)@PLT
  movsd xmm0, qword ptr [rsp + 16]
  movsd xmm1, qword ptr [rsp + 24]
  add rsp, 40
  ret

Стало только хуже: D. Теперь можно и приступить к оптимизациям.

В реальном коде ситуация, когда аргументы функции сразу же передаются в другую функцию в неизменном виде, не так часто встречается. Поэтому в таком виде пример выглядит более правдоподобно.

Рассмотрим происходящее с точки зрения предметной области (пусть и скудной). Что делают функции GetX () и GetY () нам очевидно. То же касается и порядка аргументов функции Middle () — он не важен, так как результат останется такой же. Это очевидно нам, но не компилятору.

Довольно распространенная практика на языках С и С++ — разделять файлы на заголовочные и реализацию. В данном случае так и происходит. Реализация методов класса Point и функции Middle находятся в других файлах. В данной единице трансляции нет никакой информации о том, что эти функции делают. Это значительно ограничивает компилятор в оптимизациях.

Такой подход оправдан (я его не критикую), это как минимум полезно для скорости компиляции. Тем не менее, давайте попробуем дать компилятору информацию о тривиальных функциях. Для этого перенесем реализацию в заголовочный файл и добавим ключевое слово inline для соблюдения ODR — one definition rule. То же самое сделаем и для конструктора.

class Point
{
private:
  double m_x;
  double m_y;

public:
  inline Point(double x, double y)
    : m_x(x)
    , m_y(y)
  {}

  inline double GetX() const { return m_x; }
  inline double GetY() const { return m_y; }
};

Результат впечатляет:

.LCPI0_0:
  .quad 0xbff0000000000000
GetSomePoint(Point, Point):
  push rax
  movaps xmm4, xmm1
  movapd xmm5, xmm0
  movapd xmm0, xmm2
  movapd xmm1, xmm3
  movapd xmm2, xmm5
  movaps xmm3, xmm4
  call Middle(Point, Point)@PLT
  xorpd xmm2, xmm2
  movapd xmm3, xmm1
  cmpneqpd xmm3, xmm2
  cmpneqpd xmm2, xmm0
  andpd xmm2, xmm3
  movd eax, xmm2
  test al, 1
  jne .LBB0_2
  movsd xmm0, qword ptr [rip + .LCPI0_0]
  movapd xmm1, xmm0
.LBB0_2:
  pop rax
  ret

Не будем останавливаться и сделаем то же для функции `Middle`:

inline Point Middle(Point p1, Point p2)
{
  double x = p1.GetX() / 2 + p2.GetX() / 2;
  double y = p1.GetY() / 2 + p2.GetY() / 2;
  return Point{x, y};
}

Итого получаем следующее:

.LCPI0_0:
  .quad 0x3fe0000000000000
  .quad 0x3fe0000000000000
.LCPI0_1:
  .quad 0xbff0000000000000
  .quad 0xbff0000000000000
GetSomePoint(Point, Point):
  unpcklpd xmm2, xmm3
  movapd xmm3, xmmword ptr [rip + .LCPI0_0]
  mulpd xmm2, xmm3
  unpcklpd xmm0, xmm1
  mulpd xmm0, xmm3
  addpd xmm0, xmm2
  xorpd xmm1, xmm1
  movapd xmm2, xmm0
  cmpneqpd xmm2, xmm1
  movapd xmm3, xmm0
  unpckhpd xmm3, xmm0
  cmpneqpd xmm3, xmm1
  andpd xmm3, xmm2
  pshufd xmm2, xmm3, 68
  andpd xmm0, xmm2
  andnpd xmm2, xmmword ptr [rip + .LCPI0_1]
  orpd xmm2, xmm0
  pshufd xmm1, xmm2, 238
  movapd xmm0, xmm2
  ret

Результат стал не таким тривиальным, как был до этого. Но даже при беглом осмотре становится понятно, что работать это будет значительно быстрее. Главное, на что стоит обратить внимание, это прямое обращение к полям класса без вызова getter-ов.

Мы получили то, что хотели. Код теперь будет работать быстрее, при этом семантика полностью сохранена. Всю сложную работу сделал компилятор, а исходный вид нашей функции остался неизменным.

Point GetSomePoint(Point p1, Point p2)
{
  Point p = Middle(p2, p1);

  return p.GetX() != 0 and p.GetY() != 0 ? p : Point{-1, -1};
}

Стоит указать на некоторые важные вещи:

  • В данном примере функции тривиальные, что позволяет получить улучшение производительности практически бесплатно. В реальности (к сожалению) это не всегда уместно, поскольку скорость компиляции пострадает многократно, а оптимизации будут незаметны.

  • Link time optimization не рассматриваем специально, речь в статье идет именно о преобразовании исходного кода.

  • Существует мнение, что inline расставлять не стоит, компилятор лучше знает, где его надо использовать. Это правда, но лишь отчасти. Компилятор и правда лучше знает, но фактически ключевое слово inline используется только для ODR. Большинство современных компиляторов его игнорируют (уже достаточно давно) и строят оптимизации по своим правилам.

virtual

Избитый всеми (и мной тоже) пример с фигурами. У нас есть фигура, и в очередной раз надо вычислять ее площадь. Будем смотреть только на квадрат.

class Figure
{
public:
  virtual ~Figure() = default;

  virtual double Area() const = 0;
};

class Square : public Figure
{
private:
  double m_size;

public:
  virtual double Area() const override { return m_size * m_size; }
};

Напишем элементарную функцию:

double CalculateSomeArea(const Square* s)
{
  return s != nullptr ? s->Area() * 2 : 0;
}

Получаем следующее:

CalculateSomeArea(Square const*):
  test rdi, rdi
  je .LBB0_1
  push rax
  mov rax, qword ptr [rdi]
  call qword ptr [rax + 16]
  addsd xmm0, xmm0
  add rsp, 8
  ret
.LBB0_1:
  xorps xmm0, xmm0
  ret

Стоит обратить внимание на:

call qword ptr [rax + 16]

Это вызов виртуальной функции. В данном случае нам не поможет inline, даже несмотря на то, что тип объекта мы знаем (аргумент функции Square). Причина в том, что компилятор делает предположение, что может быть какой-то наследник класса Square, который эту функцию переопределяет.

Его нет и быть не может. Скажем об этом прямо:

class Square final : public Figure
//           ~~~~~

Если же есть, например, квадрат с именем, который не переопределяет метод `Area ()`, то можно сделать замену `override → final`:

virtual double Area() const final { return m_size * m_size; }

Оба способа дают одинаковый результат:

CalculateSomeArea(Square const*):
  test rdi, rdi
  je .LBB0_1
  movsd xmm0, qword ptr [rdi + 8]
  mulsd xmm0, xmm0
  addsd xmm0, xmm0
  ret
.LBB0_1:
  xorps xmm0, xmm0
  ret

За счет того, что компилятор знает содержимое функции, а сама функция не переопределена, ее содержимое раскрывается по месту вызова. Благодаря этому мы избегаем ненужных операций.

Отсюда получается довольно интересный эффект:

class Figure
{
public:
  virtual ~Figure() = default;

  virtual double Area() const = 0;
};

class Square : public Figure
{
private:
  double m_size;

public:
  Square(double size)
    : m_size(size)
  {
  }

  virtual double Area() const override 
  { 
    return m_size * m_size; 
  }
};

void SetSomeNumber(double);

inline double FigureArea(const Figure* f)
{
  return f != nullptr ? f->Area() : 0;
}

void SomeCode(double value)
{
  Square s(value);
  double num = FigureArea(&s);
  SetSomeNumber(num);
}

Весь код сверху превращается в это:

SomeCode(double):
  mulsd xmm0, xmm0
  jmp SetSomeNumber(double)@PLT

Красиво, не правда ли? Мы сохранили абстракции, но при этом получили максимально производительный код.

Может произойти что угодно

class Bar
{
private:
  int m_int;
  double m_double;

public:
  Bar();
  ~Bar();

  int foo() const;
};

int SomeCode()
{
  Bar bar;
  return bar.foo();
}

Обычный код. Есть какой-то класс, у него есть какой-то метод. Мы его вызываем. Сразу скажу, inline тут не причем. Давайте посмотрим, что может пойти не так:

SomeCode():
  push rbx
  sub rsp, 16
  mov rbx, rsp
  mov rdi, rbx
  call Bar::Bar()@PLT
  mov rdi, rbx
  call Bar::foo() const@PLT
  mov ebx, eax
  mov rdi, rsp
  call Bar::~Bar()@PLT
  mov eax, ebx
  add rsp, 16
  pop rbx
  ret
  mov rbx, rax
  mov rdi, rsp
  call Bar::~Bar()@PLT
  mov rdi, rbx
  call _Unwind_Resume@PLT

DW.ref.__gxx_personality_v0:
  .quad __gxx_personality_v0

Все было бы хорошо, если бы не одна деталь — код после ret. В нашем коде мы исключениями не пользуемся. Глазами разработчика, если ничего не намекает на исключения, их скорее всего нет. Со стороны компилятора — наоборот. Не написали явно, значит, исключения могут быть. По понятным причинам, компилятор обязан встроить дополнительный код для их обработки. Добавим то, чего не хватает — noexcept.

class Bar
{
  // ...
  Bar() noexcept;
  ~Bar();

  int foo() const noexcept;

И все встает на свои места:

SomeCode():
  push rbp
  push rbx
  sub rsp, 24
  lea rbx, [rsp + 8]
  mov rdi, rbx
  call Bar::Bar()@PLT
  mov rdi, rbx
  call Bar::foo() const@PLT
  mov ebp, eax
  mov rdi, rbx
  call Bar::~Bar()@PLT
  mov eax, ebp
  add rsp, 24
  pop rbx
  pop rbp
  ret

За счет этого мы не только избавились от ненужного кода, но и лучше оптимизировали тот, который нам нужен.

Говоря простыми словами, компилятор разделяет код на части. Если какая-то функция может бросить исключение, то код до нее и после разделяется на разные фрагменты, а оптимизации применяются к каждому фрагменту отдельно. В действительности все устроено значительно сложнее, но этого достаточно, чтобы передать общую идею — даже неиспользуемый код может сделать гадость.

4f2da8ed7b4c12195b26207416c05fdf.PNG

Эксперименты

Все мы любим эксперименты. И чтобы не быть голословным, напишем код и проверим. Будем писать игру, а точнее ее малую часть. Есть игровое поле, представленное в виде ячеек. Ячеек бывает два вида — море и суша. Напишем:

// Position.hpp
#pragma once

#include 
#include 

class Position
{
public:
  Position(int x, int y);

  int GetX() const;
  int GetY() const;

  bool operator==(const Position&) const = default;
  bool operator!=(const Position&) const = default;

private:
  int m_x;
  int m_y;
};

namespace std {
  template <>
  struct hash
  {
    size_t operator()(const Position& pos) const
    {
      return (static_cast(pos.GetX()) << 32) + static_cast(pos.GetY());
    }
  };
} // namespace std
// Cell.hpp
#pragma once

enum class CellType
{
  Ground,
  Sea
};

class Cell
{
public:
  Cell(CellType type);

  CellType GetType() const;

private:
  CellType m_type;
};
// Map.hpp
#pragma once

#include 
#include 

class Cell;
class Position;

class Map
{
public:
  Map();

  std::shared_ptr GetCellAt(const Position& pos) const;

  int GetWidth() const;
  int GetHeight() const;

private:
  std::vector> m_cells;
  int m_width;
  int m_height;
};

Что-то похожее на правду получилось. Ячейки специально разместил в виде указателей. Предполагаем, что это какой-то сложный объект, и по значению мы его хранить не можем. Реализацию методов выкладывать не вижу смысла — они тривиальные. Теперь напишем алгоритм. У нас на карте есть суша и море. Мы хотим написать следующую функцию:

Для определенной позиции вычисляем размер острова (количество ячеек земли), на котором расположена указанная позиция. Если позиция указывает на море, возвращаем 0.

В качестве основы для алгоритма используем что-то похожее на поиск в глубину. Чтобы избежать переполнения стека, рекурсию использовать не будем. Получается следующий код:

#include "cell.hpp"
#include "map.hpp"
#include "position.hpp"

int GetGroundAreaAt(const Map& map, const Position& initialPos)
{
  int result = 0;
  std::unordered_set visited;
  std::stack toVisit;

  toVisit.emplace(initialPos);

  while (not toVisit.empty())
  {
    Position pos = toVisit.top();
    toVisit.pop();

    if (pos.GetX() < 0 or pos.GetY() < 0 or pos.GetX() >= map.GetWidth() or pos.GetY() >= map.GetHeight())
    {
      continue;
    }

    auto insertRes = visited.insert(pos);
    if (not insertRes.second)
    {
      continue;
    }

    auto c = map.GetCellAt(pos);
    if (c->GetType() != CellType::Ground)
    {
      continue;
    }

    ++result;

    toVisit.emplace(pos.GetX() + 1, pos.GetY());
    toVisit.emplace(pos.GetX() - 1, pos.GetY());
    toVisit.emplace(pos.GetX(), pos.GetY() + 1);
    toVisit.emplace(pos.GetX(), pos.GetY() - 1);
  }

  return result;
}

Проверять будем на карте размером 1000×1000. Заполняем случайно, с шансом 70% будет земля, так мы получим огромные острова (и долгое время выполнения : D). При проверке будем вызывать функцию для 100 случайных позиций. Сид для генерации устанавливаем фиксированный — 0. В результате время выполнения составляет 10.3 секунды. Кстати, максимальная площадь острова составила 700183 клетки (материк с лужами, а не острова в море), что объясняет такое время выполнения.

Теперь переделаем все методы классов Cell, Position и Map, они будут inline. Работа очевидная и в примерах кода не нуждается. Результат порадовал, время выполнения стало 9.2 секунды.

Не так впечатляет, как снижение сложности алгоритма или выполнение в несколько потоков, но тоже приятно — 10% без особых усилий. Как и говорилось в начале, подход не дает большого преимущества, но изменения в коде тривиальные, мы не рискуем что-то сломать. Разумеется, представленный алгоритм далек от идеала, но наша цель состояла в том, чтобы ускорить его без изменений. Если изменить алгоритм, время выполнения, естественно, будет ниже, но преимущество от описанных оптимизаций никуда не денется.

Бонус — range vs for

26c6a3e23761970ac57d3b842ba5746e.PNG

В качестве бонуса хочется поговорить про новинку С++20 (новинке уже 4 года…) — ranges. Давайте посмотрим, как их видит компилятор. Для начала сравним обычные алгоритмы и их аналоги в namespace std: ranges

bool HasZero(const std::vector& vi)
{
  return std::any_of(vi.begin(), 
                     vi.end(), 
                     [](int x) { return x == 0; });
}

Тривиально, а в результате получаем это:

Скрытый текст

HasZero(std::vector> const&):
  mov rdx, qword ptr [rdi]
  mov rax, qword ptr [rdi + 8]
  mov rdi, rax
  sub rdi, rdx
  mov rsi, rdi
  sar rsi, 4
  test rsi, rsi
  jle .LBB0_8
  and rdi, -16
  mov rcx, rdi
  add rcx, rdx
  inc rsi
  add rdx, 8
.LBB0_2:
  cmp dword ptr [rdx - 8], 0
  je .LBB0_17
  cmp dword ptr [rdx - 4], 0
  je .LBB0_18
  cmp dword ptr [rdx], 0
  je .LBB0_16
  cmp dword ptr [rdx + 4], 0
  je .LBB0_19
  dec rsi
  add rdx, 16
  cmp rsi, 1
  jg .LBB0_2
  mov rdi, rax
  sub rdi, rcx
  sar rdi, 2
  cmp rdi, 1
  jne .LBB0_9
  jmp .LBB0_15
.LBB0_8:
  mov rcx, rdx
  sar rdi, 2
  cmp rdi, 1
  je .LBB0_15
.LBB0_9:
  cmp rdi, 2
  je .LBB0_13
  mov rdx, rax
  cmp rdi, 3
  jne .LBB0_16
  cmp dword ptr [rcx], 0
  je .LBB0_21
  add rcx, 4
.LBB0_13:
  cmp dword ptr [rcx], 0
  je .LBB0_21
  add rcx, 4
.LBB0_15:
  cmp dword ptr [rcx], 0
  cmovne rcx, rax
  mov rdx, rcx
.LBB0_16:
  cmp rdx, rax
  setne al
  ret
.LBB0_17:
  add rdx, -8
  cmp rdx, rax
  setne al
  ret
.LBB0_18:
  add rdx, -4
  cmp rdx, rax
  setne al
  ret
.LBB0_21:
  mov rdx, rcx
  cmp rdx, rax
  setne al
  ret
.LBB0_19:
  add rdx, 4
  cmp rdx, rax
  setne al
  ret

Выглядит не очень, попробуем аналог:

bool HasZero(const std::vector& vi)
{
  return std::ranges::any_of(vi, [](int x) { return x == 0; });
}
HasZero(std::vector> const&):
  mov rdx, qword ptr [rdi]
  mov rcx, qword ptr [rdi + 8]
  cmp rdx, rcx
  je .LBB0_1
  add rdx, 4
.LBB0_4:
  cmp dword ptr [rdx - 4], 0
  sete al
  je .LBB0_2
  lea rsi, [rdx + 4]
  cmp rdx, rcx
  mov rdx, rsi
  jne .LBB0_4
.LBB0_2:
  ret
.LBB0_1:
  xor eax, eax
  ret

Очевидно, где лучше. Посмотрим кое-что интересней:

int OddSum(const std::vector& vi)
{
  int res = 0;

  auto&& range = vi 
               | std::views::filter([](int x) { return x % 2 == 0; });

  for (int i : range)
  {
    res += i;
  }

  return res;
}

Стоит сразу оговориться — accumulate я специально не использовал, важно показать влияние от применения фильтрации.

Посмотрим, что получилось:

OddSum(std::vector> const&):
  mov rcx, qword ptr [rdi]
  mov rdx, qword ptr [rdi + 8]
  cmp rcx, rdx
  je .LBB0_4
.LBB0_1:
  test byte ptr [rcx], 1
  je .LBB0_4
  add rcx, 4
  cmp rcx, rdx
  jne .LBB0_1
  xor eax, eax
  ret
.LBB0_4:
  xor eax, eax
.LBB0_5:
  cmp rcx, rdx
  je .LBB0_9
  add eax, dword ptr [rcx]
.LBB0_8:
  add rcx, 4
  cmp rcx, rdx
  je .LBB0_9
  test byte ptr [rcx], 1
  jne .LBB0_8
  jmp .LBB0_5
.LBB0_9:
  ret

Прекрасный код. Ничего лишнего, именно то, что я и написал. «Доделали!» — сказал я себе, радуясь, что новинка не только удобная, но и работать будет быстро.

«Ага, ЩАС!». Поверили? В статье про оптимизации в коде нет хитростей? Давайте проверим старый добрый цикл for, его точно доделали:

int OddSum(const std::vector& vi)
{
  int res = 0;

  for (int i : vi)
  {
    if (i % 2 == 0)
    {
      res += i;
    }
  }

  return res;
}

Скрытый текст

.LCPI0_0:
  .long 1
  .long 1
  .long 1
  .long 1
OddSum(std::vector> const&):
  mov r8, qword ptr [rdi]
  mov rcx, qword ptr [rdi + 8]
  cmp r8, rcx
  je .LBB0_1
  mov rdi, rcx
  sub rdi, r8
  add rdi, -4
  xor edx, edx
  cmp rdi, 28
  jae .LBB0_5
  xor eax, eax
  mov rsi, r8
  jmp .LBB0_8
.LBB0_1:
  xor eax, eax
  ret
.LBB0_5:
  shr rdi, 2
  inc rdi
  mov r9, rdi
  and r9, -8
  lea rsi, [r8 + 4*r9]
  pxor xmm0, xmm0
  xor eax, eax
  movdqa xmm3, xmmword ptr [rip + .LCPI0_0]
  pxor xmm2, xmm2
  pxor xmm1, xmm1
.LBB0_6:
  movdqu xmm4, xmmword ptr [r8 + 4*rax]
  movdqu xmm5, xmmword ptr [r8 + 4*rax + 16]
  movdqa xmm6, xmm4
  pand xmm6, xmm3
  movdqa xmm7, xmm5
  pand xmm7, xmm3
  pcmpeqd xmm6, xmm0
  pand xmm6, xmm4
  paddd xmm2, xmm6
  pcmpeqd xmm7, xmm0
  pand xmm7, xmm5
  paddd xmm1, xmm7
  add rax, 8
  cmp r9, rax
  jne .LBB0_6
  paddd xmm1, xmm2
  pshufd xmm0, xmm1, 238
  paddd xmm0, xmm1
  pshufd xmm1, xmm0, 85
  paddd xmm1, xmm0
  movd eax, xmm1
  cmp rdi, r9
  je .LBB0_2
.LBB0_8:
  mov edi, dword ptr [rsi]
  test dil, 1
  cmovne edi, edx
  add eax, edi
  add rsi, 4
  cmp rsi, rcx
  jne .LBB0_8
.LBB0_2:
  ret

Выглядит страшно. Но этот код работает примерно в 12 раз быстрее за счет векторизации. Да, элементарный код будет лучше, мнимая красота того не стоит. Однако в защиту стоит сказать, где применение ranges реально может ускорить быстродействие:

inline auto Document::GetFiguresInRect(const Rect& rect) const
{
  return std::views::all(m_figures)
       | std::views::filter([&rect](const Figure* fig) { return fig->CollidesRect(rect); })
       | std::views::transform([](auto&& i) -> const Figure* { return i; });
}

Документ содержит фигуры. Нам нужен список фигур, которые попадают в прямоугольник. Такой подход как минимум позволит избежать создания нового списка, то есть выделения памяти, что очень удобно.

Примечание: из-за своей специфики подобный подход опасен висячими ссылками, применять с осторожностью. Берегите свои ноги!

Итоги

  • Для простых функций применение inline может быть оправдано, например:

    • Тривиальные get/set

    • Простые функции

    • Не сложные вычисления

  • Для оптимизации работы виртуальных функций inline не всегда достаточно. Тем не менее, поставить у класса-наследника final может помочь компилятору лучше оптимизировать.

  • Если необходимо применить функцию STL на весь контейнер, есть смысл выбрать версию из namespace std: ranges.

  • Использование std: views вместо цикла for может быть оправдано только в тех случаях, когда мы избегаем создания нового контейнера. В остальных случаях обычный цикл будет как минимум не хуже.

  • Исключения достаточно хорошо оптимизированы, но не бесплатны. Если их нет и не будет — не лишним будет добавить noexcept.

© Habrahabr.ru