[Перевод] Виртуальная Машина PHP 7

Всем доброго времени суток! Меня зовут Константин, в Badoo я работаю в команде Features Team. Скорее всего, вы уже знаете, что наш бэкенд написан на PHP и обслуживает более трёх сотен миллионов пользователей. Так что я не мог упустить шанс перевести эту статью core-разработчика PHP Никиты Попова. Уверен, она будет полезна разработчикам всех уровней, но новичкам может показаться сложноватой. Приятного (и полезного) чтения!

cba2e4816c9945ebb6252e504a5b2eb8.jpg

В статье представлен обзор виртуальной машины Zend для PHP 7. Это не исчерпывающее описание, но я постараюсь охватить большинство важных частей, а также некоторые детали.

Описание сделано на основе PHP версии 7.2 (в настоящее время находится в разработке), но почти всё справедливо и для PHP 7.0/7.1. Однако отличия от виртуальных машин серии PHP 5.x являются значительными, и с ними я, как правило, не проводил параллели.

В большей части статьи рассматриваются вещи на уровне листингов инструкций, и только несколько разделов в конце касаются уровня фактической реализации виртуальной машины на языке C. Тем не менее я хочу предоставить ссылки на основные файлы, составляющие виртуальную машину:

  • zend_vm_def.h: файл определений виртуальной машины;
  • zend_vm_execute.h: сгенерированная виртуальная машина;
  • zend_vm_gen.php: генерирующий скрипт;
  • zend_execute.c: большая часть непосредственно обслуживающего кода.

Опкоды (Opcodes)


Вначале был опкод (opcode). Говоря «опкод», мы ссылаемся на инструкцию виртуальной машины целиком (включая операнды), но также это может обозначать только «фактический» код операции, который представляет собой число small integer, определяющее тип инструкции. Предполагаемое значение должно быть ясно из контекста. В исходном коде инструкции целиком обычно называются oplines.
Отдельная инструкция соответствует следующей структуре zend_op:
struct _zend_op {
    const void *handler;
    znode_op op1;
    znode_op op2;
    znode_op result;
    uint32_t extended_value;
    uint32_t lineno;
    zend_uchar opcode;
    zend_uchar op1_type;
    zend_uchar op2_type;
    zend_uchar result_type;
};

Таким образом, опкоды по существу представляют собой инструкцию в формате «трехадресного кода». Есть opcode, определяющий тип инструкции, есть два входных операнда op1 и op2 и один выходной операнд result.

Не все инструкции используют все операнды. Инструкция ADD (представляющая оператор +) будет использовать все три. Инструкция BOOL_NOT (представляющая оператор ! ) использует только op1 и result. Инструкция ECHO использует только op1. Некоторые инструкции могут использовать или не использовать операнд. Например, DO_FCALL может иметь или не иметь операнд результата (в зависимости от того, используется ли возвращаемое значение вызова функции). Некоторым инструкциям требуется больше двух входных операндов, и в этом случае для дополнительных операндов они просто будут использовать вторую вспомогательную инструкцию (OP_DATA).

Рядом с этими тремя стандартными операндами существует дополнительное числовое поле extended_value, которое может использоваться для хранения дополнительных модификаторов инструкций. Например, для CAST оно может содержать целевой тип, к которому нужно выполнить приведение.

Каждый операнд имеет тип, хранящийся в op1_type, op2_type и result_type соответственно. Возможные типы: IS_UNUSED, IS_CONST, IS_TMPVAR, IS_VAR и IS_CV.

Три последних типа предназначены для операндов-переменных (с тремя разными типами переменных виртуальной машины), IS_CONST обозначает операнд-константу (5, или «строка», или даже [1, 2, 3]), в то время как IS_UNUSED обозначает операнд, который либо фактически не используется, либо используется как 32-битное числовое значение (так называемый непосредственный операнд). Например, инструкция перехода будет хранить адрес перехода в операнде UNUSED.

Получение дампов опкодов


В дальнейшем я буду часто демонстрировать фрагменты опкода, которые генерирует PHP. В настоящее время существует три способа получения таких дампов опкода:
# Opcache, since PHP 7.1
php -d opcache.opt_debug_level=0x10000 test.php

# phpdbg, since PHP 5.6
phpdbg -p* test.php

# vld, third-party extension
php -d vld.active=1 test.php

Из них opcache предоставляет наилучший результат. Листинги, используемые в этой статье, основаны на дампах opcache, с незначительными корректировками синтаксиса. Магическое число 0×10000 является сокращением «до оптимизации», поэтому мы видим опкоды такими, какими их создал PHP-компилятор. 0×200000 выдаст вам оптимизированные опкоды. Opcache также может генерировать намного больше информации. Например, 0×40000 сгенерирует CFG, а 0×200000 выдаст SSA. Но не будем опережать события: для наших целей достаточно обычных старых линеаризованных дампов опкодов.

Типы переменных


Вероятно, одним из наиболее важных моментов, которые следует учитывать при работе с виртуальной машиной PHP, является использование трёх различных типов переменных. В PHP 5 TMPVAR, VAR и CV имели очень разные представления в стеке виртуальной машины, и способы доступа к ним тоже были очень разными. В PHP 7 они стали очень похожими, поскольку используют один и тот же механизм хранения. Однако существуют важные различия в значениях, которые они могут содержать, и в их семантике.

CV — сокращение от «скомпилированной переменной» (compiled variable). Она ссылается на «реальную» переменную PHP. Если функция использует переменную $a, то для неё будет соответствующая CV.

Переменные CV могут иметь тип UNDEF, чтобы обозначать неопределённые переменные. Если в инструкции используется UNDEF CV, это в большинстве случаев выдаёт широко известное уведомление «неопределённая переменная» (undefined variable). На входе функции все CV, не являющиеся аргументами, инициализируются как UNDEF.

Переменные CV не уничтожаются инструкциями. Например, инструкция ADD $a, $b не уничтожит значения, хранящиеся в переменных $a и $b. Вместо этого все CV-переменные уничтожаются одновременно при выходе из области видимости. Это также подразумевает, что все CV-переменные содержат допустимые значения в течение всей продолжительности функции.

Переменные TMPVAR и VAR, в свою очередь, являются временными переменными виртуальной машины. Они обычно вводятся в качестве операнда результата некоторой операции. Например, код $a = $b + $c + $d приведёт к опкоду, аналогичному следующему:

T0 = ADD $b, $c
T1 = ADD T0, $d
ASSIGN $a, T1

Переменные TMP/VAR всегда определяются перед использованием и как таковые не могут содержать значение UNDEF. В отличие от CV, эти типы переменных уничтожаются инструкциями, в которых они используются. В приведённом выше примере второй ADD уничтожит значение операнда T0, и после этой точки T0 не должна больше использоваться. Аналогично ASSIGN уничтожит значение T1, делая переменную T1 недействительной.

Из этого следует, что переменные TMP/VAR обычно очень недолговечны. В большинстве случаев они живут только в пределах одной инструкции. Вне этого короткого интервала значения в них являются мусором.

Так в чём же различия между TMP- и VAR-переменными? Их немного. Разница была унаследована от PHP 5, где TMP размещались в стеке виртуальной машины, а VAR — в куче. В PHP 7 все переменные размещаются в стеке. Таким образом, в настоящее время основное различие между TMP и VAR состоит в том, что только последним разрешено содержать ссылки (это позволяет нам исключать разыменование (DEREF) переменных TMP). Кроме того, VAR могут содержать два типа специальных значений, а именно class entries и значения INDIRECT. Последние используются для обработки нетривиальных присвоений.

В этой таблице приведены основные отличия переменных:

UNDEF REF INDIRECT Consumed? Named?
CV yes yes no no yes
TMPVAR no no no yes no
VAR no yes yes yes no

Оп-массивы


Все функции PHP представлены в виде структур, имеющих общий заголовок zend_function. Понятие «функция» здесь трактуется несколько шире и включает в себя всё: от «реальных» функций и методов до автономного pseudo-main-кода и eval-кода.

В пользовательских функциях используется структура zend_op_array. У неё более 30 полей, поэтому я начну с её уменьшенной версии:

struct _zend_ {
    /* Common zend_function header here */

    /* ... */
    uint32_t last;
    zend_op *opcodes;
    int last_var;
    uint32_t T;
    zend_string **vars;
    /* ... */
    int last_literal;
    zval *literals;
    /* ... */
};

Наиболее важная часть здесь — это, конечно, opcodes, которые представляют собой массив опкодов (инструкций). last — количество опкодов в этом массиве. Обратите внимание, что терминология несколько сбивает с толку, поскольку last звучит так, как будто он должен быть индексом последнего опкода, в то время как на самом деле это количество опкодов (на один больше, чем последний индекс). То же самое относится ко всем другим значениям last_* в структуре op_array.

last_var — это количество CV, а T — количество TMP и VAR (в большинстве случаев мы не делаем между ними различий). vars — массив имён для CV.

literals — это массив литералов, встречающихся в коде, то, на что ссылаются операнды CONST. В зависимости от ABI каждый операнд CONST будет либо содержать указатель на элемент этой таблицы литералов, либо хранить смещение относительно её начала.

В этой структуре есть ещё кое-что, но это можно отложить.

Схема стекового кадра


За исключением executor globals (EG), всё состояние выполнения хранится в стеке виртуальной машины. Стек VM распределяется на страницах по 256KiB, а отдельные страницы связаны через связанный список.

При каждом вызове функции в стеке виртуальных машин выделяется новый стековый кадр, имеющий следующую схему:

+----------------------------------------+
| zend_execute_data                      |
+----------------------------------------+
| VAR[0]                =         ARG[1] | arguments
| ...                                    |
| VAR[num_args-1]       =         ARG[N] |
| VAR[num_args]         =   CV[num_args] | remaining CVs
| ...                                    |
| VAR[last_var-1]       = CV[last_var-1] |
| VAR[last_var]         =         TMP[0] | TMP/VARs
| ...                                    |
| VAR[last_var+T-1]     =         TMP[T] |
| ARG[N+1] (extra_args)                  | extra arguments
| ...                                    |
+----------------------------------------+

Кадр начинается со структуры zend_execute_data, за которой следует массив слотов переменных. Слоты все одинаковы (простые zval), но используются они для разных целей. Первые слоты last_var являются CV, из которых первая num_args содержит аргументы функции. За слотами CV следуют T-слоты для TMP/VAR. Наконец, иногда могут быть дополнительные аргументы, хранящиеся в конце кадра. Они используются для func_get_args ().

Операнды CV и TMP/VAR в инструкциях кодируются как смещения относительно начала стекового кадра, поэтому выборка определённой переменной является простым чтением из ячейки по адресу execute_data плюс указанное смещение.

Данные в начале кадра определяются следующим образом:

struct _zend_execute_data {
    const zend_op       *opline;
    zend_execute_data   *call;
    zval                *return_value;
    zend_function       *func;
    zval                 This;           /* this + call_info + num_args    */
    zend_class_entry    *called_scope;
    zend_execute_data   *prev_execute_data;
    zend_array          *symbol_table;
    void               **run_time_cache; /* cache op_array->run_time_cache */
    zval                *literals;       /* cache op_array->literals       */
};

Самое главное, что эта структура содержит opline, которая является выполняемой в данный момент инструкцией, и func, которая является выполняемой в данный момент функцией. Более того:
  • return_value указатель на zval, в котором будет сохранено возвращаемое значение;
  • This — это $this-объект, но также количество аргументов функции и пара флагов метаданных вызова в некоторых неиспользуемых пространствах zval;
  • called_scope область видимости, на которую в PHP-коде ссылается static: ;
  • prev_execute_data указывает на предыдущий кадр стека, к которому вернётся выполнение после завершения этой функции;
  • symbol_table обычно неиспользуемая таблица символов, применяемая в случае, если какой-то сумасшедший фактически использует variable-переменные или аналогичные функции;
  • run_time_cache кеширует op_array→run_time_cache, чтобы избежать косвенной адресации при доступе к этой структуре (что будет рассмотрено ниже);
  • literals кеширует таблицу литералов oп-массива по той же причине.

Вызовы функций


Я пропустил одно поле в структуре execute_data, а именно call, так как оно требует некоторого дополнительного объяснения того, как работают вызовы функций.

Во всех вызовах используется одна и та же последовательность инструкций. var_dump ($a, $b) в глобальной области видимости компилируется в:

INIT_FCALL (2 args) "var_dump"
SEND_VAR $a
SEND_VAR $b
V0 = DO_ICALL   # или просто DO_ICALL если retval не используется

Существует восемь различных типов инструкций INIT (в зависимости от того, какой это вызов). INIT_FCALL используется для вызовов функций (не являющихся методами класса), которые мы распознаём во время компиляции. Аналогично, есть десять различных опкодов SEND (в зависимости от типа аргументов и функции). Существует только небольшое количество из четырёх опкодов DO_CALL, где ICALL используется для вызовов внутренних функций.

Хотя конкретные инструкции могут отличаться, структура всегда одна и та же: INIT, SEND, DO. Основной проблемой, с которой должна справиться последовательность вызовов, являются вложенные вызовы функций, которые компилируют что-то вроде этого:

# var_dump(foo($a), bar($b))
INIT_FCALL (2 args) "var_dump"
    INIT_FCALL (1 arg) "foo"
    SEND_VAR $a
    V0 = DO_UCALL
SEND_VAR V0
    INIT_FCALL (1 arg) "bar"
    SEND_VAR $b
    V1 = DO_UCALL
SEND_VAR V1
V2 = DO_ICALL

Я отформатировал последовательность опкодов, чтобы визуализировать, какие инструкции соответствуют какому вызову.

Опкод INIT помещает в стек кадр вызова, который содержит достаточно места для всех переменных и аргументов функции, о которых мы знаем (если задействована распаковка аргументов, мы можем в итоге получить больше аргументов). Этот кадр вызова инициализируется вызываемой функцией, $this и called_scope (в данном случае оба последних будут NULL, поскольку мы вызываем функции).

Указатель на новый кадр сохраняется в execute_data→call, где execute_data является кадром вызывающей функции. В дальнейшем мы будем обозначать это как EX (call). Примечательно, что prev_execute_data нового кадра устанавливается в старое значение EX (call). Например, INIT_FCALL для вызова foo запишет в prev_execute_data кадр стека var_dump. Таким образом, prev_execute_data в этом случае формирует связанный список «незаконченных» вызовов, в то время как обычно он обеспечивает цепочку backtrace.

Затем опкоды SEND переходят к передаче аргументов в слоты переменных EX (call). На этом этапе все аргументы являются последовательными и могут перетекать из раздела для аргументов в другие CV или TMP. Это будет исправлено позже.

Наконец, DO_FCALL выполняет фактический вызов. То, что было EX (call), становится текущей функцией, а prev_execute_data меняется на вызывающую функцию. Кроме того, процедура вызова зависит от того, какая это функция. Внутренним функциям нужно лишь вызвать функцию-обработчик, в то время как пользовательские функции должны завершить инициализацию стекового кадра.

Эта инициализация включает в себя приведение в порядок стека аргументов. PHP позволяет передавать функции больше аргументов, чем она ожидает (и func_get_args полагается на это). Тем не менее только фактические аргументы имеют соответствующие CV. Любые другие аргументы будут записываться в память, зарезервированную для других CV и TMP. По существу, эти аргументы будут размещены после TMP, в результате чего аргументы будут разделены на два отдельных фрагмента.

Необходимо пояснить, что вызовы пользовательских функций не предполагают рекурсию на уровне виртуальной машины. Они подразумевают только переключение с одного execute_data на другой, но VM продолжает работать в линейном цикле. Рекурсивные вызовы виртуальной машины возникают только в том случае, если внутренние функции вызывают пользовательские колбэки (например, через array_map). По этой причине бесконечная рекурсия в PHP обычно прерывается из-за нехватки памяти или ошибки OOM, но можно вызвать переполнение стека рекурсией через колбэки или магические методы.

Передача аргументов


Для передачи аргументов PHP использует большое количество опкодов, различия между которыми могут сбивать с толку из-за их неудачного наименования.

SEND_VAL и SEND_VAR — простейшие варианты, которые производят передачу аргументов по значению, когда значение известно во время компиляции. SEND_VAL используется для CONST- и TMP-операндов, а SEND_VAR — для VAR и CV.

SEND_REF, напротив, используется для аргументов, о которых во время компиляции известно, что они являются ссылками. Поскольку только указатели могут быть переданы по ссылке, этот опкод принимает только VAR и CV.

SEND_VAL_EX и SEND_VAR_EX — варианты SEND_VAL/SEND_VAR для случаев, когда мы не можем статически определить, передаётся аргумент по значению или по ссылке. Эти опкоды проверяют тип аргумента, основываясь на arginfo, и ведут себя соответствующим образом. В большинстве случаев фактически используется не структура arginfo, а довольно компактный битовый вектор непосредственно в структуре функции.

И ещё есть SEND_VAR_NO_REF_EX. Не пытайтесь понять что-нибудь из его имени — это откровенная ложь. Этот опкод используется при передаче чего-то, что на самом деле не является переменной, но возвращает VAR как статически неизвестный аргумент. Два конкретных примера, в которых он используется, — передача результата вызова функции в качестве аргумента и передача результата присваивания.

Этот случай требует отдельного опкода по двум причинам: во-первых, он создаст знакомое сообщение «Только переменные должны быть переданы по ссылке», если вы попытаетесь передать что-то вроде присваивания по ссылке (если бы использовался SEND_VAR_EX, он бы молча позволил). Во-вторых, этот опкод имеет дело с тем случаем, когда вам может понадобиться передать результат вызова функции по ссылке, не возбуждая никаких исключений. Вариант этого опкода SEND_VAR_NO_REF (без _EX) является специализированным вариантом для случая, когда мы статически знаем, что ссылка ожидается, но не знаем, является ли аргумент ею.

Опкоды SEND_UNPACK и SEND_ARRAY имеют дело с распаковкой аргументов и вложенными вызовами call_user_func_array соответственно. Они оба извлекают элементы из массива и помещают их в стек аргументов и отличаются различными деталями (например, распаковка поддерживает Traversables, а call_user_func_array — нет). Если используется распаковка, может потребоваться увеличить кадр стека (так как реальное число аргументов функции неизвестно во время инициализации). В большинстве случаев это увеличение может произойти просто перемещением указателя вершины стека. Однако если будет пересечена граница страницы стека, новая страница должна быть выделена, и весь кадр вызова (включая уже помещённые в стек аргументы) должен быть скопирован на новую страницу (мы не сможем обрабатывать кадр вызова, пересекающий границу страницы).

Последний опкод — SEND_USER — используется для внутренних вызовов call_user_func и имеет дело с некоторыми её особенностями.

Хотя мы ещё не обсуждали различные режимы получения данных из переменных, самое время представить режим FUNC_ARG. Рассмотрим простой вызов типа func ($a[0][1][2]), для которого мы не знаем во время компиляции, будет аргумент передан по значению или по ссылке. В этих случаях поведение будет сильно отличаться. Если производится передача по значению, и $a — пустой, это может создать кучу уведомлений «undefined index». Если осуществляется передача по ссылке, мы должны молча инициализировать вложенные массивы.

Режим получения данных FUNC_ARG динамически выбирает один из двух вариантов поведения (R или W), проверяя arginfo текущей EX (call)-функции. Для примера func ($a[0][1][2]) последовательность опкодов может выглядеть примерно так:

INIT_FCALL_BY_NAME "func"
V0 = FETCH_DIM_FUNC_ARG (arg 1) $a, 0
V1 = FETCH_DIM_FUNC_ARG (arg 1) V0, 1
V2 = FETCH_DIM_FUNC_ARG (arg 1) V1, 2
SEND_VAR_EX V2
DO_FCALL

Режимы получения данных (fetch modes)


Виртуальная машина PHP имеет четыре класса опкодов для получения данных:
FETCH_*             // $_GET, $$var
FETCH_DIM_*         // $arr[0]
FETCH_OBJ_*         // $obj->prop
FETCH_STATIC_PROP_* // A::$prop

Они делают именно то, что можно было бы ожидать от них, с замечанием, что основной вариант FETCH_ * используется только для доступа к переменным переменных ($$var) и суперглобальным переменным: обычные обращения к переменным вместо этого происходят через более быстрый CV-механизм.

Эти опкоды получения данных представлены в шести вариантах:

_R
_RW
_W
_IS
_UNSET
_FUNC_ARG

Мы уже узнали, что _FUNC_ARG выбирает между _R и _W в зависимости от того, как передаётся аргумент функции — по значению или по ссылке. Давайте попробуем создать некоторые ситуации, когда мы ожидаем появления разных вариантов FETCH_*:
// $arr[0];
V2 = FETCH_DIM_R $arr int(0)
FREE V2

// $arr[0] = $val;
ASSIGN_DIM $arr int(0)
OP_DATA $val

// $arr[0] += 1;
ASSIGN_ADD (dim) $arr int(0)
OP_DATA int(1)

// isset($arr[0]);
T5 = ISSET_ISEMPTY_DIM_OBJ (isset) $arr int(0)
FREE T5

// unset($arr[0]);
UNSET_DIM $arr int(0)

К сожалению, фактическое получение по индексу происходит только в случае FETCH_DIM_R. Всё остальное обрабатывается с помощью специальных опкодов. Обратите внимание, что ASSIGN_DIM и ASSIGN_ADD используют дополнительную OP_DATA, потому что им нужно больше двух входных операндов. Причина использования специальных опкодов, таких как ASSIGN_DIM, вместо чего-то вроде FETCH_DIM_W + ASSIGN, заключается (кроме производительности) в том, что эти операции могут быть перегружены (например, в случае ASSIGN_DIM с помощью объекта, реализующего ArrayAccess: offsetSet ()). Чтобы на самом деле генерировать разные типы выборки, нам необходимо увеличить уровень вложенности:

// $arr[0][1];
V2 = FETCH_DIM_R $arr int(0)
V3 = FETCH_DIM_R V2 int(1)
FREE V3

// $arr[0][1] = $val;
V4 = FETCH_DIM_W $arr int(0)
ASSIGN_DIM V4 int(1)
OP_DATA $val

// $arr[0][1] += 1;
V6 = FETCH_DIM_RW $arr int(0)
ASSIGN_ADD (dim) V6 int(1)
OP_DATA int(1)

// isset($arr[0][1]);
V8 = FETCH_DIM_IS $arr int(0)
T9 = ISSET_ISEMPTY_DIM_OBJ (isset) V8 int(1)
FREE T9

// unset($arr[0][1]);
V10 = FETCH_DIM_UNSET $arr int(0)
UNSET_DIM V10 int(1)

Здесь мы видим, что в то время как внешний доступ использует специализированные опкоды, вложенные индексы будут обрабатываться с помощью FETCH с соответствующим fetch mode. Эти режимы существенно отличаются тем, генерируют ли они уведомление «Undefined offset», если индекс не существует, и получают ли они значение для записи:

Notice?
Write?
R yes no
W no yes
RW yes yes
IS no no
UNSET no yes-ish

Случай с UNSET немного странный, поскольку он будет извлекать только существующие смещения для записи и оставлять неопределённые без обработки. Обычная запись-выборка (write-fetch) инициализирует неопределённые смещения вместо него.

Запись данных и безопасность памяти


Write fetches возвращают VAR, которые могут содержать либо нормальный zval, либо INDIRECT-указатель на другой zval. Конечно, в первом случае любые изменения, применённые к zval, не будут видны, поскольку значение доступно только через временную переменную VM. Хотя PHP запрещает выражения типа [][0] = 42, нам всё равно нужно обрабатывать их для таких случаев, как call ()[0] = 42. В зависимости от того, возвращается call () значение или ссылку, это выражение может или не может иметь наблюдаемый эффект.

Более типичный случай — когда fetch возвращает INDIRECT, который содержит указатель на изменяемую ячейку памяти (например, определённое местоположение в массиве данных хеш-таблицы). К сожалению, такие указатели являются хрупкими вещами и легко становятся недействительными: любая одновременная запись в массив может вызвать перераспределение памяти, оставляя «висячий» указатель. Таким образом, важно предотвратить выполнение кода пользователя между точкой, где создаётся значение INDIRECT, и где оно используется.

Рассмотрим следующий пример:

$arr[a()][b()] = c();

Который генерирует:
INIT_FCALL_BY_NAME (0 args) "a"
V1 = DO_FCALL_BY_NAME
INIT_FCALL_BY_NAME (0 args) "b"
V3 = DO_FCALL_BY_NAME
INIT_FCALL_BY_NAME (0 args) "c"
V5 = DO_FCALL_BY_NAME
V2 = FETCH_DIM_W $arr V1
ASSIGN_DIM V2 V3
OP_DATA V5

Примечательно, что эта последовательность сначала выполняет все побочные действия слева направо и только затем делает необходимую выборку-запись (мы называем здесь FETCH_DIM_W «отложенным opline»). Это гарантирует, что write-fetch и инструкция, использующая результат fetch, выполняются непосредственно друг за другом.

Рассмотрим другой пример:

$arr[0] =& $arr[1];

Здесь у нас есть небольшая проблема: обе стороны присваивания должны быть выбраны для записи. Однако если мы выберем $arr[0] для записи, а затем $arr[1] для записи, последнее может сделать недействительным первое. Эта проблема решается следующим образом:
V2 = FETCH_DIM_W $arr 1
V3 = MAKE_REF V2
V1 = FETCH_DIM_W $arr 0
ASSIGN_REF V1 V3

Здесь $arr[1] извлекается для записи первым, а затем превращается в ссылку, используя MAKE_REF. Результат MAKE_REF больше не является INDIRECT и не подлежит аннулированию, поэтому выборку из $arr[0] можно делать безопасно.

Обработка исключений


Исключения — это корень всех зол.

Исключение генерируется путем его записи в EG (exception), где EG ссылается на executor globals. Выбрасывание исключений из кода C не предполагает размотки стека; вместо этого прерывания будут распространяться вверх через возвращаемые коды сбоя или за счёт проверки EG (exception). Исключение обрабатывается только тогда, когда управление возвращается в код виртуальной машины.

Почти все инструкции VM могут прямо или косвенно привести к исключению при некоторых обстоятельствах. Например, уведомление «Неопределённая переменная» может привести к исключению, если используется пользовательский обработчик ошибок. Мы хотим избежать проверки EG (exception) после каждой инструкции VM. Для этого используем небольшой трюк:

Когда генерируется исключение, текущий opline текущего execute data заменяется фиктивным opline HANDLE_EXCEPTION (это не изменяет op array, а только перенаправляет указатель). Opline, в котором возникло исключение, резервируется в EG (opline_before_exception). Это означает, что, когда управление возвращается в основной цикл виртуальной машины, будет вызван опкод HANDLE_EXCEPTION. Существует небольшая проблема с этой схемой: она требует, чтобы: а) в opline, хранящемся в execute data, в действительности в настоящее время исполнялся opline (иначе opline_before_exception было бы неправильным); и б) виртуальная машина использовала opline из execute data для продолжения выполнения (иначе HANDLE_EXCEPTION не будет вызываться).

Хотя эти требования могут показаться тривиальными, это не так. Причина в том, что виртуальная машина может работать с другой переменной opline, которая не синхронизирована с opline, хранящейся в execute data. До появления PHP 7 это случалось только в редко используемых GOTO и SWITCH, а в PHP 7 это фактически режим работы по умолчанию: если компилятор поддерживает это, opline хранится в глобальном регистре.

Таким образом, перед выполнением любой операции, которая может бросить исключение, локальный opline должен быть записан обратно в execute data (операция SAVE_OPLINE). Аналогично после любой потенциально опасной операции локальный opline должен быть заполнен из execute data (обычно операцией CHECK_EXCEPTION).

Таким образом HANDLE_EXCEPTION вызывается после того, как было брошено исключение. Но что он делает? Прежде всего, он определяет, было ли исключение брошено внутри блока try. Для этого op array содержит массив try_catch_elements, который отслеживает смещения opline для блоков try, catch и finally:

typedef struct _zend_try_catch_element {
	uint32_t try_op;
	uint32_t catch_op;  /* ketchup! */
	uint32_t finally_op;
	uint32_t finally_end;
} zend_try_catch_element;

Пока мы будем делать вид, что блоков finally не существует, поскольку они представляют собой отдельную проблему. Предполагая, что мы действительно находимся внутри блока try, виртуальной машине необходимо очистить все недоработанные операции, которые начались до выброса исключения, и не проскочить мимо конца блока try.

Это включает в себя освобождение кадров стека и связанных данных всех вызовов, а также освобождение всех живых временных переменных. В большинстве случаев временные данные недолговечны до такой степени, что использующая их инструкция следует непосредственно за порождающей их. Однако иногда время их жизни охватывает несколько потенциально бросающих исключение инструкций:

# (array)[] + throwing()
L0:   T0 = CAST (array) []
L1:   INIT_FCALL (0 args) "throwing"
L2:   V1 = DO_FCALL
L3:   T2 = ADD T0, V1

В этом случае переменная T0 активна во время инструкций L1 и L2 и как таковая должна быть уничтожена, если функция бросит исключение.

Один особый тип временных данных, имеющий склонность к длительному времени жизни, — переменные цикла. Например:

# foreach ($array as $value) throw $ex;
L0:   V0 = FE_RESET_R $array, ->L4
L1:   FE_FETCH_R V0, $value, ->L4
L2:   THROW $ex
L3:   JMP ->L1
L4:   FE_FREE V0

Здесь переменная цикла V0 живет от L1 до L3 (обычно всегда охватывая все тело цикла). Диапазоны жизни хранятся в op array, используя следующую структуру:
typedef struct _zend_live_range {
    uint32_t var; /* low bits are used for variable type (ZEND_LIVE_* macros) */
    uint32_t start;
    uint32_t end;
} zend_live_range;

Здесь var — это переменная, к которой применим диапазон, start — это начальное смещение opline (не включая инструкцию генерации), а end — конец смещения opline (включая инструкцию использования). Конечно, диапазоны жизни сохраняются только в том случае, если временные данные не используется немедленно.

Младшие биты var используются для хранения типа переменной, который может быть одним из следующих:

  • ZEND_LIVE_TMPVAR: это «нормальная» переменная. Она содержит обычное значение zval. Освобождение этой переменной ведёт себя как опкод FREE;
  • ZEND_LIVE_LOOP: это переменная цикла foreach, которая содержит больше простого zval. Она соответствует опкоду FE_FREE;
  • ZEND_LIVE_SILENCE: используется для реализации оператора подавления ошибок. Старый уровень уведомления об ошибках сохраняется, а позднее восстанавливается. Если выбрасывается исключение, мы, очевидно, также хотим его восстановить. Соответствует END_SILENCE;
  • ZEND_LIVE_ROPE: используется для конкатенации строк, и в этом случае временным является массив указателей фиксированного размера zend_string*, живущих в стеке. В этом случае все строки, которые уже были заполнены, должны быть освобождены. Соответствует примерно END_ROPE.

Трудный вопрос, который следует рассмотреть в этом контексте, заключается в том, должны ли временные данные освобождаться, если исключение бросает генерирующая либо использующая их инструкция. Рассмотрим простой код:
T2 = ADD T0, T1
ASSIGN $v, T2

Если исключение выбрасывает ADD, будет ли T2 автоматически освобождаться, или это ADD-инструкция ответственна за это? Аналогично, если ASSIGN бросает исключение, должна ли T2 быть освобождена автоматически, или ASSIGN должна позаботиться об этом сама? В последнем случае ответ очевиден: инструкция всегда ответственна за освобождение своих операндов, даже если выдаётся исключение.

Случай с операндом результата сложнее, потому что ответ здесь изменился между PHP 7.1 и 7.2. В PHP 7.1 инструкция была ответственна за освобождение результата в случае исключения, а в PHP 7.2 он автоматически освобождается (а инструкция отвечает за то, чтобы результат всегда заполнялся). Мотивация для этого изменения — способ, которым реализованы многие основные инструкции (такие как ADD). Их обычная структура примерно следующая:

  1. Чтение входных операндов.
  2. Выполнение операции, запись результата.
  3. Освобождение входных операндов (при необходимости).

Это проблематично, потому что PHP находится в очень неудачном положении, поддерживая не только исключения и деструкторы, но и бросание исключений в деструкторах (это то место, где разработчики компилятора в ужасе вскрикивают). Таким образом, шаг 3 может бросить исключение, после того как результат уже заполнен. Чтобы избежать утечек памяти в этом случае, ответственность за освобождение операнда результата была перенесена с инструкции на механизм обработки исключений.

Как только мы выполнили эти операции очистки, мы можем продолжить выполнение блока catch. Если catch нет (и нет finally), мы разматываем стек, то есть уничтожаем текущий кадр стека и предоставляем родительскому кадру возможность для обработки исключения.

Чтобы вы получили полное представление о том, насколько безобразна вся обработка исключений, я расскажу о ещё одном моменте, связанном с бросающим исключение деструктором. Это неприменимо на практике, но справедливости ради нам всё равно нужно с ним разобраться.
Рассмотрим следующий код:

foreach (new Dtor as $value) {
    try {
        echo "Return";
        return;
    } catch (Exception $e) {
        echo "Catch";
    }
}

Теперь представьте, что Dtor — это класс Traversable с бросающим исключение деструктором. Этот код приведёт к следующей последовательности опкодов (с отступом тела цикла для удобочитаемости):
L0:   V0 = NEW 'Dtor', ->L2
L1:   DO_FCALL
L2:   V2 = FE_RESET_R V0, ->L11
L3:   FE_FETCH_R V2, $value
L4:       ECHO 'Return'
L5:       FE_FREE (free on return) V2   # <- return
L6:       RETURN null                   # <- return
L7:       JMP ->L10
L8:       CATCH 'Exception' $e
L9:       ECHO 'Catch'
L10:  JMP ->L3
L11:  FE_FREE V2                        # <- the duplicated instr

Важно отметить, что return скомпилирован в FE_FREE-переменной цикла и RETURN. Что происходит, если FE_FREE бросает исключение? Ведь у Dtor бросающий исключение деструктор. Обычно мы говорим, что эта инструкция находится внутри блока try, поэтому мы должны вызывать catch. Однако на этом этапе переменная цикла уже уничтожена! Catch сбрасывает исключение — и мы попытаемся продолжить итерацию уже мёртвой переменной цикла.

Причина этой проблемы в том, что, хотя выбрасывание исключения в FE_FREE находится внутри блока try, он является копией FE_FREE в L11. Логически это то, где произошло исключение на самом деле. Вот почему FE_FREE, генерируемый прерыванием, аннотируется как FREE_ON_RETURN. Это предписывает механизму обработки исключений перемещать источник исключения в исходную инструкцию освобождения. Таким образом, приведённый выше код не будет запускать блок catch — он будет генерировать неперехваченное исключение.

Обработка finally


История PHP с блоками finally несколько неблагополучна. Впервые они были введены в PHP 5.5, но это была по-настоящему глючная реализация. PHP 5.6, 7.0 и 7.1 поставлялись со значительными переделками в этой области. Каждая версия исправляла целый ряд ошибок, но не могла достичь полностью правильной реализации. И вот, похоже, PHP 7.1 это наконец-то удалось (будем надеяться).

Во время написания этого раздела я с удивлением обнаружил, что с точки зрения текущей реализации обработка finally на самом деле не так уж и сложна. Действительно, во многих отношениях реализация стала проще, а не сложнее. Это показывает, как недостаточное понимание проблемы может привести к слишком сложной и неповоротливой реализации (хотя, справедливости ради, часть сложности реализации PHP 5 проистекала непосредственно из отсутствия AST).

Блоки finally выполняются всякий раз, когда управление выходит из блока try, либо обычным способом (например, с помощью return), либо ненормально (бросая исключения). Есть несколько интересных случаев для рассмотрения, которые я проиллюстрирую, прежде чем приступа

© Habrahabr.ru