«Range-based for»: что интересного лежит на поверхности
Новый синтаксис для циклов for
в C++ появился уже давно — более десяти лет назад в стандарте C++11. Идея, скрывающаяся за этим синтаксисом, не является сколь-нибудь запутанной, и практически все, кто интересуются новыми свойствами языка, быстро разобрались с тем, как этим синтаксисом пользоваться и, что важнее, как создавать свои типы, совместимые с синтаксисом range-based for
. Однако, как мне кажется, именно в вопросах взаимодействия с пользовательскими типами спецификация range-based for содержит несколько интересных деталей, лежащих практически на поверхности, которые остаются незамеченными просто потому, что идиоматические подходы прекрасно обходятся и без них. Возможно, кому-то будет интересно взглянуть на них повнимательнее.
Полную спецификацию range-based for
можно посмотреть по ссылке (C++11), а здесь для краткости я лишь приведу её часть в собственном переводе/переизложении. Я сфокусируюсь именно на том, как «под капотом» такого цикла формируются начальный и конечный итераторы __begin
и __end
, задающие диапазон итерирования по некоей сущности __range
типа _RangeT
. То есть в первую очередь я веду речь о следующих трех условных ветвях:
Если тип
_RangeT
является массивом, то в качестве итераторов выступают выражения__range
и__range + __bound
, где__bound
— это размер массива.Если тип
_RangeT
является классом, то выполняется поиск идентификаторовbegin
иend
в области видимости этого класса и, если хотя бы одно их там найдено, то в качестве итераторов выступают выражения__range.begin()
и__range.end()
.В противном случае, в качестве итераторов выступают выражения
begin(__range)
end(__range)
, причем поиск именbegin
иend
выполняется через посредство argument-dependent lookup (ADL).
Здесь я намеренно взял за основу спецификацию из C++11. Она несколько отличается в формулировках от более поздних вариантов. Но об этом позже. При этом в примерах кода ниже я не ограничиваю себя только C++11.
Деталь первая: обычные массивы
Чтобы сразу убрать это простой момент из рассмотрения, заметим, что, согласно первому пункту, поведение range-based for
для обычных массивов является жестко зафиксированным самим ядром языка. Range-based for
для обычных массивов просто итерирует указателем по элементам массива. Это поведение невозможно переопределить.
Зачастую можно увидеть, как поведение range-based for
для обычных массивов объясняют через стандартные шаблонные функции std::begin
и std::end
(тем самым пытаясь свести первый пункт к третьему). Это не так. Поведение для массивов жёстко определено в недрах ядра языка и на поверхность нигде не выныривает. Это, очевидно, было сделано специально для того, чтобы пресечь любые попытки переопределения. Даже если ваш массив содержит элементы пользовательского типа, пытаться перегружать или специализировать std::begin
и std::end
для такого массива бесполезно — это никак не повлияет на поведение range-based for
.
Деталь вторая: внутри классов
На первый взгляд во втором пункте спецификации все понятно: в классе выполняется поиск методов begin
и end
, которые затем и используются.
Но на самом деле в тексте присутствует одна важная деталь: выполняется поиск не методов, а идентификаторов begin
и end
в области видимости класса. А это значит, что в качестве таких begin
и end
могут выступать не только методы класса, но и его поля (которые, разумеется, должны являться функциональными объектами). Эти поля, как, впрочем, и методы, могут быть и статическими.
#include
#include
#include
const char *const HW[] = { "Hello", "World" };
struct S
{
static inline auto begin = []{ return std::begin(HW); };
static inline auto end = []{ return std::end(HW); };
};
struct T
{
const char *s;
T(const char *s = "Anubis") : s{s}, begin{this}, end{this}
{}
struct B
{
T *t;
auto operator()() const { return t->s; }
} begin;
struct E
{
T *t;
auto operator()() const { return t->s + std::strlen(t->s); }
} end;
};
int main()
{
S s;
for (auto e : s)
std::cout << e << " ";
std::cout << std::endl;
T t;
for (auto e : t)
std::cout << e << " ";
std::cout << std::endl;
}
// Вывод:
// Hello World
// A n u b i s
Зачем кому-то может понадобиться использовать именно функциональные объекты в такой роли — вопрос отдельный, но такая возможность есть.
Деталь третья: снаружи классов
Речь идет о третьем пункте спецификации. Опять же, внешне все просто: выполняется поиск самостоятельных/отдельностоящих функций begin
и end
, которые могут быть вызваны с аргументом __range
и которые затем и используются для формирования итераторов.
Тут можно сразу заметить, что эти функции (или шаблоны функций) совсем не обязаны принимать параметры именно типа _RangeT
. Эти функции вызываются обычным образом, то есть вполне подойдут и функции, с параметрами того типа, к которому _RangeT
можно неявно привести
#include
const char *const HW[] = { "Hello", "World" };
const char *const GW[] = { "Goodbye", "World" };
struct S
{
operator auto() const { return HW; }
};
struct T
{
operator auto() const { return GW; }
};
auto begin(const char *const *a) { return a; }
auto end(const char *const *a) { return a + 2; }
int main()
{
S s;
for (auto e : s)
std::cout << e << " ";
std::cout << std::endl;
T t;
for (auto e : t)
std::cout << e << " ";
std::cout << std::endl;
}
// Вывод:
// Hello World
// Goodbye World
В данном примере, как видите, одна и та же пара функций begin
и end
используются двумя разными циклами for
с разными типами __range
.
Но более интересной деталью тут является именно то, что в версии спецификации из C++11 напрямую используется Argument Dependent Lookup (ADL). Я не буду расписывать здесь, что такое ADL — это отдельная тема -, но упомяну лишь, что ADL выполняет особый поиск имен в так называемых ассоциированных пространствах имен и ассоциированных классах. И, что важно, в процессе поиска ADL «видит» только функции или шаблоны функций, но не объекты. (Кстати, эта особенность ADL лежит в основе такой модной техники, как «ниблоиды»). Что это означает для range-based for
? Это означает, что в таком варианте у нас нет возможности использовать функциональные объекты вместо функций. Следующий код является некорректным в C++11 именно по этой причине
#include
#include
const char *const HW[] = { "Hello", "World" };
struct S {};
auto begin = [](const S &) { return std::begin(HW); };
auto end = [](const S &) { return std::end(HW); };
int main()
{
S s;
for (auto e : s)
std::cout << e << " ";
std::cout << std::endl;
}
// error: 'begin' was not declared in this scope
// 14 | for (auto e : s)
// | ^
Такая асимметрия в спецификации изначально несколько удивляет: почему внутри класса разрешается использовать функциональные объекты в такой роли, а снаружи нет?
На самом деле на этот вопрос можно предложить вполне естественные ответы. Действительно, функциональные объекты, объявленные на уровне пространства имен, очень сильно отличаются по своему поведению от классических функций и вне темы range-based for
…, но см. ниже.
Деталь четвертая: смешивание разных вариантов объявления begin и end
Спецификация однозначна: обе функции должны быть либо членами класса (т.е. определены по второму пункту), либо отдельностоящими функциями или шаблонами функций (т.е. определены по третьему пункту). Объявить begin
одним способом, а end
— другим не получится. Точнее, работать с range-based for
такая комбинация не будет.
В то же время при определении по второму пункту — членами класса — вы можете при желании объявить одну из этих сущностей методом, а другую — функциональным объектом.
Деталь пятая: ADL умеет видеть друзей
ADL имеет ещё одно замечательное свойство: он умеет видеть объявления функций-друзей класса, даже если эти функции-друзья не объявлены явно за пределами класса. Как вы знаете, для обычного поиска имен такие функции-друзья невидимы. Благодаря этому отличию ADL мы имеем возможность объявить begin
и end
следующим образом
#include
#include
const char *const HW[] = { "Hello", "World" };
struct S
{
friend auto begin(const S &) { return std::begin(HW); };
friend auto end(const S &) { return std::end(HW); };
};
int main()
{
S s;
for (auto e : s)
std::cout << e << " ";
std::cout << std::endl;
}
// Вывод:
// Hello World
Пусть объявление (и определение) этих функций внутри класса не вводит вас в заблуждение: даже если внешне они объявлены внутри, членами этого класса они не являются. То есть в данном случае мы используем именно третий пункт спецификации range-based for
.
Деталь шестая: так все таки ADL или не ADL?
Однако интересно заметить, что уже в C++14 версии спецификации range-based for
прямое использование ADL было внезапно устранено из текста, а вместо этого просто говорится, что поиск ведется в ассоциированных пространствах имен. Мое первое впечатление от этого изменения подсказывало мне, что ссылка на ADL была устранена из текста именно для того, чтобы такой поиск умел находить и функции, и функциональные объекты. Однако ни один из существующих популярных компиляторов в этом со мной не согласен: даже в режиме C++14 соответствующий код (см. «Деталь третья») не компилируется ни в GCC, ни в Clang, ни в MSVC++.
При этом формулировка из C++14 звучит несколько странно. «Поиск ведется в ассоциированных пространствах имен»? Что же это за поиск такой? Как он себя ведет по сравнению с ADL? Как насчет поиска в ассоциированных классах? Умеет ли он видеть функции-друзья, объявленные внутри классов, как в примере выше?
Это странная ситуация сохраняется и в C++17, и в C++20… Но в C++23 в спецификацию третьего пункта снова неожиданно возвращается прямое упоминание ADL. Это, по-видимому, и объясняет поведение современных компиляторов. Подозреваю, что попытка отказаться от прямого использования ADL в этом контексте была признана дефектом и ретроспективно отменена.
Деталь седьмая: только в ассоциированных пространствах имен
Как бы там ни было, поиск отдельностоящих функций begin
и end
в третьем пункте делается только в ассоциированных пространствах имен (и в ассоциированных классах), определяемых типом _RangeT
. Из этого следует то, что даже если вы предоставите подходящие по типу аргументов функции begin
и end
, но поместите их в «неправильное» пространство имен, эти функции найдены не будут. Следующий код является некорректным именно по этой причине
#include
#include
const char *const HW[] = { "Hello", "World" };
namespace N
{
struct S {};
};
auto begin(const N::S &) { return std::begin(HW); };
auto end(const N::S &) { return std::end(HW); };
int main()
{
N::S s;
for (auto e : s)
std::cout << e << " ";
std::cout << std::endl;
}
// error: 'begin' was not declared in this scope
// 17 | for (auto e : s)
// | ^
В данном пример функции begin
и end
сидят в открытую посреди глобального пространства имен, но найдены они не будут, ибо глобальное пространство имен не является ассоциированным для типа N::S
. Но если перенести эти функции внутрь пространства имен N
, то они сразу начнут находиться.
Еще одним следствием этого правила является то, что поведение range-based for
невозможно переопределить для фундаментальных типов. Фундаментальные типы просто не имеют ассоциированных пространств имен вообще. Поэтому вот такая наивная попытка сделать range-based for
применимым к объектам типа int
обречена на провал
#include
#include
const char *const HW[] = { "Hello", "World" };
auto begin(int) { return std::begin(HW); };
auto end(int) { return std::end(HW); };
int main()
{
for (auto e : 42)
std::cout << e << " ";
std::cout << std::endl;
}
// error: 'begin' was not declared in this scope
// 11 | for (auto e : 42)
// | ^~
Деталь восьмая:, а ведь enum — это не фундаментальный тип
Пытаться применять range-based for
к значению типа int
бесполезно, о чем шла речь выше, но никто нам не запрещает применить такой цикл к значению типа enum
, определив begin
и end
как отдельностоящие функции
#include
#include
enum Dow { MON, TUE, WED, THU, FRI, SAT, SUN, N_DOW_ };
const char *const DOW_NAMES[N_DOW_][2] =
{
{ "Понедельник", "Monday" },
{ "Вторник", "Tuesday" },
{ "Среда", "Wednesday" },
/* ... */
};
auto begin(Dow dow) { return std::begin(DOW_NAMES[dow]); }
auto end(Dow dow) { return std::end(DOW_NAMES[dow]); }
int main()
{
for (auto e : TUE)
std::cout << e << " ";
std::cout << std::endl;
}
// Вывод:
// Вторник Tuesday
Как видите, мой пример кода выше претендует на попытку создания некоего практически полезного применения для такого переопределения. Но он явно притянут за уши. Судите сами, имеет ли это смысл.
Заключение
Как вы заметили, я несколько поленился, описав вопрос «ADL или не ADL» в терминах «подозреваю» и «мне кажется». Конечно же, можно поднять документы с деталями обсуждения этого вопроса в WG21 и досконально разобраться в этапах развития этой части спецификации. У меня просто пока не было на это времени.
Также, с диапазоном итерирования range-based for
связан еще ряд интересных деталей. В частности: возможность использовать итераторы __begin
и __end
разного типа, появившаяся в C++17. Но эта тема скорее связана с появлением поддержки диапазонов в C++, а не с range-based for
.
Пока все.