Размышления над разыменованием нулевого указателя
Оказывается, что вопрос, корректен или нет вот такой код &((T*)(0)→x), весьма непрост. Решил написать про это маленькую заметку.В недавней статье о проверке ядра Linux с помощью анализатора PVS-Studio, я написал, что нашел вот такой фрагмент кода: static int podhd_try_init (struct usb_interface *interface, struct usb_line6_podhd *podhd) { int err; struct usb_line6 *line6 = &podhd→line6;
if ((interface == NULL) || (podhd == NULL)) return -ENODEV; … } Также в статье я написал, что такой код, на мой взгляд, некорректен. Подробности можно посмотреть в статье.После этого мне посыпались в почту письма о том, что я неправ, и этот код совершенно корректен. Многие указали, что если podhd == 0, то этот код по сути реализует идиому «offsetof», и ничего плохого произойти не может. Чтобы не писать множество ответов я решил оформить ответ в виде маленького поста в блоге.
Естественно я решил изучить данную тему подробнее. Но, если честно, в результате я только ещё больше запутался. Поэтому я не дам вам точный ответ, можно так писать или нет. Я только предоставлю некоторые ссылки и поделюсь своим мнением.
Когда я писал статью о проверке Linux, я размышлял так.
Любое разыменование нулевого указателя — это неопределённое поведение. Одним из проявлений неопределённого поведения может стать такая оптимизация кода, когда проверка (podhd == NULL) исчезнет. Именно такой вариант развития событий я и описал в статье.
В письмах некоторые разработчики написали, что не смогли добиться такого поведения на своих компиляторах. Однако, это ничего не доказывает. Ожидаемая правильная работа программы — это просто один из вариантов неопределённого поведения.
Некоторые также написали, что именно так устроен макрос ffsetof ():
#define offsetof (st, m) ((size_t)(&((st *)0)→m)) Однако и это ничего не доказывает. Такие макросы специально сделаны так, чтобы работать правильно в нужном компиляторе. Если мы напишем похожий код, вовсе необязательно, что он будет работать.Более того, здесь компилятор явно видит 0 и может угадать, что от него хочет программист. Когда 0 хранится в переменной это совсем другое дело, и компилятор может повести себя неожиданным образом.
Вот, что про offsetof сказано в Wikipedia:
The «traditional» implementation of the macro relied on the compiler being not especially picky about pointers; it obtained the offset of a member by specifying a hypothetical structure that begins at address zero:
#define offsetof (st, m) ((size_t)(&((st *)0)→m))
This works by casting a null pointer into a pointer to structure st, and then obtaining the address of member m within said structure. While this works correctly in many compilers, it has undefined behavior according to the C standard, since it involves a dereference of a null pointer (although, one might argue that no dereferencing takes place, because the whole expression is calculated at compile time). It also tends to produce confusing compiler diagnostics if one of the arguments is misspelled. Some modern compilers (such as GCC) define the macro using a special form instead, e.g.
#define offsetof (st, m) __builtin_offsetof (st, m)
Как видите, согласно Wikipedia я прав. Так писать нельзя. Это undefined behavior. Так же считают некоторые на сайте StackOverflow: Address of members of a struct via NULL pointer.
Однако, меня смущает то, что, хотя все говорят про неопределённое поведение, нигде нет точного разъяснения на этот счёт. Например, в Wikipedia стоит пометка, что утверждение требует подтверждения [citation needed].
На форумах много раз обсуждались похожие вопросы, но нигде я не увидел однозначного объяснения, подтверждённого ссылками на стандарт Си или Си++.
Есть ещё вот такое старое обсуждение стандарта, которое тоже не добавило ясности: 232. Is indirection through a null pointer undefined behavior?
Итак, на данный момент окончательно данный вопрос мне не ясен. Однако, я по-прежнему считаю, что этот код плох и его следует отрефакторить.
Если кто-то пришлёт мне хорошие примечания на эту тему, то я добавлю их в конец этой статьи.