[Перевод] Пишем Python-расширение на Ассемблере (зачем?)
Прим. Wunder Fund: в жизни каждого человека случается момент, когда ему приходиться позаниматься реверс-инжинирингом. В статье вы найдёте базовые особенности работы с ассемблером, а также прочитаете увлекательную историю господина, который решил написать Питон-библиотеку на ассемблере и многому научился на своём пути.
Иногда, чтобы полностью разобраться с тем, как что-то устроено, нужно это сначала разобрать, а потом собрать. Уверен, многие из тех, кто это читают, в детстве часто поступали именно так. Это были дети, которые хватались за отвёртку для того, чтобы узнать, что находится внутри у чего-то такого, что им интересно. Разбирать что-то — это невероятно увлекательно, но чтобы снова собрать то, что было разобрано, нужны совсем другие навыки.
Нечто, выглядящее для стороннего наблюдателя как работающая программная система, таит внутри себя хитросплетения паттернов проектирования, патчей и «костылей». Программисты привыкли работать на низких уровнях систем, привыкли возиться с их неказистыми «внутренностями» для того, чтобы заставить эти системы выполнять простые инструкции.
Эксперимент, о котором я хочу рассказать, пронизан тем же духом. Мне хотелось узнать о том, смогу ли я написать расширение для CPython на чистом ассемблере.
Зачем мне это? Дело в том, что после того, как я дописал книгу CPython Internals, разработка на ассемблере всё ещё была для меня чем-то весьма таинственным. Я начал изучать ассемблер для x86–64 по этой книге, понял какие-то базовые вещи, но не мог связать их со знакомыми мне высокоуровневыми языками.
Вот некоторые вопросы, ответы на которые мне хотелось найти:
Почему расширения для CPython надо писать на Python или на C?
Если C-расширения компилируются в общие библиотеки, то что такого особенного в этих библиотеках? Что позволяет загружать их из Python?
Как воспользоваться ABI между CPython и C, чтобы суметь расширять возможности CPython, пользуясь другими языками?
Пара слов об ассемблере
Код на ассемблере — это последовательность команд, взятых из определённого набора инструкций. Разные процессоры имеют различные наборы инструкций. Самыми распространёнными наборами инструкций являются наборы для процессорных архитектур x86, ARM и x86–64. Существуют и расширенные наборы инструкций для этих архитектур. С выходом новых версий архитектур производители добавляют в их наборы инструкций новые команды. Часто это делается ради увеличения производительности процессоров.
У CPU имеется множество регистров, из которых он загружает данные, обработка которых выполняется с помощью инструкций. Данные можно копировать и из оперативной памяти (RAM, Random Access Memory), но нельзя скопировать данные между разными участками RAM, не прибегнув к регистрам. Это значит, что при написании программ на ассемблере нужно пользоваться длинными последовательностями команд для решения задач, которые в высокоуровневых языках решаются в одной строке кода.
Например, присвоим переменной a
ссылку на переменную b
в Python:
a = b
А в коде, написанном на ассемблере, переменную-источник сначала копируют в регистр (мы используем RAX), а потом содержимое регистра копируют в целевую переменную:
mov RAX, a
mov b, RAX
Если подробнее описать этот код, то окажется, что инструкция mov RAX, a
копирует адрес переменной a
в регистр. RAX — это 64-битный регистр, поэтому он может содержать любое значение, размер которого не превышает 64 бита (8 байт). В 64-битной операционной системе области памяти адресуются с использованием 64-битных значений, в результате адрес переменной будет представлен именно таким значением.
Ещё можно скопировать не адрес, а значение переменной в регистр, заключив имя переменной в квадратные скобки:
mov a, 1
mov RAX, [a]
Теперь содержимым регистра RAX будет десятичное число 1 (0000 0000 0000 0001
в шестнадцатеричном представлении).
Я выбрал регистр RAX из-за того, что это первый регистр, но если пишут независимое приложение, можно выбрать любой регистр.
Имена 64-битных регистров начинаются с r
, первые 8 регистров можно использовать и для работы с 32-, 16- и 8-битными значениями путём обращения к их нижним битам. Адресация 32 бит регистра выполняется быстрее, поэтому большинство компиляторов используют адреса меньших регистров в том случае, если значение укладывается в 32 бита:
64-битный регистр | Нижние 32 бита | Нижние 16 бит | Нижние 8 бит |
rax | eax | ax | al |
rbx | ebx | bx | bl |
rcx | ecx | cx | cl |
rdx | edx | dx | dl |
rsi | esi | si | sil |
rdi | edi | di | dil |
rbp | ebp | bp | bpl |
rsp | esp | sp | spl |
r8 | r8d | r8w | r8b |
r9 | r9d | r9w | r9b |
r10 | r10d | r10w | r10b |
r11 | r11d | r11w | r11b |
r12 | r12d | r12w | r12b |
r13 | r13d | r13w | r13b |
r14 | r14d | r14w | r14b |
r15 | r15d | r15w | r15b |
Так как код, написанный на ассемблере — это последовательность инструкций, организация ветвления в таком коде может оказаться непростой задачей. Для реализации ветвления используются команды условного и безусловного перехода, с помощью которых осуществляется перемещение указателя инструкций (регистр rip
) на адрес нужной инструкции. В исходном коде, написанном на языке ассемблера, адресам инструкций можно назначать метки. Ассемблер заменит имена этих меток на реальные адреса памяти. Это могут быть либо относительные, либо абсолютные адреса (об этом мы поговорим ниже).
jmp leapfrog ; Переход на метку leapfrog
mov rax, rcx ; Эта строка никогда не будет выполнена
leapfrog:
mov rcx, rax
Следующий простой Python-код содержит команду ветвления при сравнении a
с десятичным значением 5
:
a = 2
a += 3
if a == 5:
print("YES")
else:
print("NO")
В ассемблере решить ту же задачу можно, упростив программу, сведя присваивание значения переменной и увеличение его на 3
к простому сравнению. Большинство компиляторов могут автоматически выполнять оптимизации такого рода, так как они способны определить, что программист сравнивает константы.
Вот как это выглядит в псевдокоде, напоминающем ассемблер:
mov rcx, 2 ; Поместить десятичное значение 2 в регистр процессора RCX
add rcx, 3 ; Добавить 3 к значению, хранящемуся в RCX, после чего там будет 5
cmp rcx, 5 ; Сравнить RCX со значением 5
je YES ; Если RCX равен 5, перейти к метке YES
jmp NO ; Перейти к метке NO
YES: ; RCX == 5
...
jmp END
NO: ; RCX != 5
...
jmp END
Вызов внешних функций
Программа или библиотека программиста, который не планирует изобретать колесо, скорее всего, будет пользоваться функциями из других скомпилированных библиотек.
В ассемблере сослаться на адрес внешней функции можно, воспользовавшись инструкцией extern
с символическим именем функции. Компоновщик заменит эту конструкцию на конкретное значение в том случае, если с библиотекой установлена статическая связь, или, при динамической связи с библиотекой, нужное значение будет подставлено во время выполнения программы. Я не собираюсь вдаваться в подробности компоновки программ, иначе эта статья превратится в небольшую книгу (и я, честно говоря, не обладаю достаточно глубокими знаниями в сфере компоновки программ).
Если пишут приложение на C и необходимо вызвать функцию из какой-нибудь библиотеки — используют заголовочные файлы (файлы с расширением .h).
Заголовочный файл сообщает компилятору следующее:
Имя функции (символ).
Сведения о значении, которое возвращает функция, и о размере этого значения.
Сведения об аргументах функции и об их типах.
Предположим, мы определяем функцию в C:
char* pad_right(char * message, int width, char padding);
Подобное описание функции в заголовочном файле сообщает нам о том, что функция принимает 3 аргумента. Первый — это указатель типа char
, то есть — 64-битный адрес 8-битного значения (char
). Второй — это целое число (int
), которое (что зависит от операционной системы и от некоторых других факторов), вероятно, будет представлено 32-битным значением. Третий — это 8-битное значение типа char
. Функция возвращает указатель типа char
, а это значит, что нам, чтобы сохранить это значение, понадобится где-то разместить 64-битный адрес.
При вызове функций из ассемблерного кода концепция аргументов не используется. Вместо этого операционная система определяет спецификацию (называемую «соглашением о вызовах»), описывающую соответствие регистров и аргументов.
В macOS и в Linux, к счастью, используется одно и то же соглашение о вызовах, System-V, в котором сказано, что значения аргументов при вызове функции должны быть размещены в следующих регистрах:
Аргумент | 64-битный регистр |
Аргумент 1 | rdi |
Аргумент 2 | rsi |
Аргумент 3 | rdx |
Аргумент 4 | rcx |
Аргумент 5 | r8 |
Аргумент 6 | r9 |
Отмечу, что в соглашении о вызовах Windows используются регистры, отличающиеся от тех, что описаны в System-V.
Дополнительные аргументы загружаются из стека значений, и, так как речь идёт о стеке, их в него помещают в обратном порядке. Например, если у функции есть 10 аргументов, то аргумент №10 помещают в стек первым:
push arg10
push arg9
push arg8
push arg7
Соглашение о вызовах указывает на то, что если вызывают функцию, написанную на C, на C++, или даже на Rust, то эта функция прочтёт то, что находится в регистре процессора rdi
и использует это в виде своего первого аргумента.
Функцию pad_right()
можно вызвать с помощью следующего кода, написанного на ассемблере:
extern pad_right
section .data
message db "Hello", 0 ; Строка, завершающаяся нулём
section .bss
result resb 11
section .text
mov rdi, db ; аргумент 1
mov rsi, 10 ; аргумент 2
mov rdx, '-' ; аргумент 3
call pad_right
mov [result], rax ; результат
В соглашении о вызовах говорится, что результат вызова функции попадает в регистр rax
. Так как эта функция возвращает char *
, мы ожидаем, что результат её вызова будет указателем (64-битным значением, представляющим адрес в памяти). Мы резервируем 11 байтов (10 символов и 0, завершающий строку) в сегменте bss
, а потом записываем результат из rax
в это место.
Ещё важно помнить о том, что в ассемблере нет областей видимости. То есть, если некий регистр для чего-то используется, например — для хранения значения, а после этого вызывается внешняя функция — значение в этом регистре может измениться. Регистры, по сути, являются глобальными сущностями.
Для того, чтобы защитить состояние регистров от изменений, нужно перед вызовом функции поместить его в стек значений, а затем, после завершения работы функции, извлечь состояние из стека.
... выполнение неких действий с регистром r9
push r9
call externalFunction
pop r9
Когда вы разрабатываете собственные функции — ожидается, что эти функции защищают от изменений кадр вызова во время выполнения собственных инструкций. Кадр вызова использует указатель стека (регистр rsp
) и регистр rsb
. Для того чтобы это сделать, функция должна включать в себя некоторое количество дополнительных инструкций, размещаемых в начале и в конце функции (эти инструкции называются прологом и эпилогом функции).
push rbp
mov rbp, rsp
... ваш код
mov rsp, rbp
pop rbp
В Windows используется другое соглашение о вызовах, там для аргументов применяются другие регистры. В Windows, кроме того, нужен другой пролог и эпилог, там применяется ограничение адресов. Всё это устроено немного сложнее, чем описано в спецификациях Intel.
Превращение программы, написанной на ассемблере, в исполняемый файл
Программу, написанную на ассемблере, нельзя просто взять и запустить на выполнение. На первый взгляд может показаться, что это возможно, так как такие программы состоят из машинных инструкций. Но для того чтобы операционная система смогла бы выполнить эти инструкции, их нужно поместить в «обёртку», описываемую форматом исполняемых файлов.
Ассемблер — транслятор — берёт исходный код, написанный на языке ассемблера, и переводит его в машинный код. То, в каком именно формате будет представлен этот машинный код, зависит от операционной системы, для которой готовят исполняемый файл. Среди распространённых форматов исполняемых файлов можно отметить следующие:
Mach-O для macOS.
ELF для Linux.
PE для Windows.
В состав исполняемых файлов входят не только инструкции. В частности, речь идёт о следующем:
Инструкции машинного кода (в сегменте
text
).Список внешних символов (внешних ссылок).
Список требований к памяти (сегмент
bss
— Block Started by Symbol — блок, начинающийся с символа).Константы — наподобие строк (в сегменте
data
).
Заголовки исполняемых файлов содержат и другие данные, нужные операционной системе.
У файлов формата Mach-O имеется подробный заголовок, находящийся перед сегментами данных или инструкций. Мне нравится программа Synalyze It! — шестнадцатеричный редактор, который может применять так называемые «грамматики» для визуализации и декодирования бинарных файлов. Редактор поддерживает формат Mach-O. Если открыть исполняемый файл CPython (находящийся по адресу /usr/bin/python3
или там, где вы его установили), можно видеть и изучать эти заголовки.
Исследование бинарного файла в шестнадцатеричном редакторе
В правой части окна программы можно видеть некоторые атрибуты:
Архитектура процессора, для которой был ассемблирован данный бинарный файл. Когда Apple выпустит MacBook с процессором ARM, на нём этот исполняемый файл работать не будет, так как система посмотрит на этот заголовок и, ещё до попытки загрузки инструкций, выявит несоответствие в архитектуре процессора.
Длина, позиция и смещение сегментов data, text и bss.
Флаги времени выполнения, такие, как PIE (Position-Independent-Executable, независимый от расположения исполняемый файл), о которых мы поговорим ниже.
Ещё одной особенностью форматов ELF, Mach-O и PE является возможность создания общих библиотек. В Linux они представлены .so-файлами, в macOS — это .dylib- или .so-файлы, в Windows это .dll-файлы.
Общую библиотеку можно импортировать в программу динамически (как плагин) или связать с программой на этапе её сборки в виде зависимости. При разработке C-расширений для CPython нужно связывать эти расширения с общими Python-библиотеками. И сами C-расширения являются общими библиотеками, динамически загружаемыми CPython (при выполнении команды вида import mylibrary
).
Сложные структуры данных в ассемблере
Если вы вызываете функцию, аргументы которой имеют достаточно сложные типы данных (вроде указателя на struct
), вам нужно знать о том, какой объём памяти необходим для хранения соответствующих типов данных C:
Скалярный тип | Тип данных C | Размер хранилища (в байтах) | Рекомендованное выравнивание |
INT8 | char | 1 | Байт |
UINT8 | unsigned char | 1 | Байт |
INT16 | short | 2 | Слово |
UINT16 | unsigned short | 2 | Слово |
INT32 | int, long | 4 | Двойное слово |
UINT32 | unsigned int, unsigned long | 4 | Двойное слово |
INT64 | __int64 | 8 | Учетверённое слово |
UINT64 | unsigned __int64 | 8 | Учетверённое слово |
FP32 (одинарная точность) | float | 4 | Двойное слово |
FP64 (двойная точность) | double | 8 | Учетверённое слово |
POINTER | * | 8 | Учетверённое слово |
Рассмотрим следующую структуру C, имеющую три целочисленных поля (x
, y
и z
):
typedef struct {
int x;
int y;
int z;
} position
Для хранения каждого из этих четырёх полей понадобится 4 байта (32 бита). Объявим в C переменную myself
:
position myself = { 3, 9, 0} ;
В шестнадцатеричном представлении эта переменная будет выглядеть так:
0000 0003 0000 0009 0000 0000
Эту структуру можно воссоздать на ассемблере NASM, используя макрос struc
и механизм istruc
:
section .data:
struc position
x: resd 1
y: resd 1
z: resd 1
endstruc
myself:
istruc position
at x, dd 3
at y, dd 9
at z, dd 0
iend
Макрос struc
— это то же самое, что и конструкция struct
в C. Он позволяет описывать структуры, хранящиеся в памяти. Конструкция istruc
позволяет поместить в память константы. Инструкция resd
резервирует двойные слова (4 байта), а инструкция dd
инициализирует зарезервированную память данными.
В этом коде мы создали в памяти точно такую же, как и пользуясь C, структуру данных:
0000 0003 0000 0009 0000 0000
Так как всё это не помещается в 64 бита, для передачи функции подобного аргумента нужно воспользоваться указателем на адрес выделенной памяти.
Предположим, в C имеется функция, использующая тип, определённый с помощью typedef:
void calculatePosition(position* p);
Вызвать эту функцию из ассемблера можно, записав в регистр rdi
адрес выделенной памяти, содержащей то, что нужно функции:
mov rdi, myself
call calculatePosition
Функции calculatePosition()
неважно то, на каком языке написана программа, которая её вызывает. Это может быть C, ассемблер, C++ или какой-то другой язык.
Именно это я и собираюсь исследовать для того, чтобы узнать о том, сможем ли мы написать динамически загружаемое расширение для CPython на ассемблере.
Регистрация модуля расширения Python
Когда в Python загружают модуль, библиотека, отвечающая за импорт, заглянет в PYTHONPATH
в поиске модуля, соответствующего предоставленному программистом имени.
Модули могут быть либо написаны на C (они представлены скомпилированными расширениями), либо на Python. Многие модули стандартной библиотеки CPython написаны на C, так как им нужны интерфейсы с низкоуровневыми API операционной системы (дисковый ввод/вывод данных, работа с сетью и так далее). Другие модули стандартной библиотеки написаны на Python. При создании некоторых из них используется и Python, и C. Это Python-модули с функциями-расширениями, написанными на C. Обычно подобные конструкции оформлены в виде общедоступного Python-модуля, к которому прилагается скрытый модуль, написанный на C. Python-модуль импортирует скрытый C-модуль и реализует обёртки для его функций.
Вот что нужно для того, чтобы написать модуль расширения на C:
C-код, который мы попытаемся воссоздать на ассемблере — это функция PyInit_pymult()
, которая возвращает PyObject*
, создаваемый путём вызова PyModule_Create2()
.
PyObject* PyInit_pymult() {
return PyModule_Create2(&_moduledef, 1033);
}
Существует несколько способов регистрации модуля. Я воспользуюсь так называемой «однофазной регистрацией» модуля.
Когда в Python-программе встречается конструкция import XYZ,
система ищет следующее:
Файл с именем
XYZ-cpython-{version}-{os.name}.so
по пути Python.Файл
XYZ.so
по пути Python.
В первом пункте этого списка показан файл библиотеки, скомпилированной для конкретной версии Python. В бинарном дистрибутиве пакета (wheel) может присутствовать несколько вариантов библиотеки, скомпилированной для разных версий Python. Например:
XYZ-cpython-39-darwin.so
Python 3.9XYZ-cpython-38-darwin.so
Python 3.8XYZ-cpython-37-darwin.so
Python 3.7
Если вам интересно узнать о том, что такое «darwin», то знайте, что это — старое имя ядра macOS. Оно до сих пор используется в CPython.
PyModule_Create2()
— это функция, которая принимает PyModule_Def
и int
с версией CPython, для которой предназначен этот модуль.
Структуры типа определены в CPython, в файлеInclude/moduleobject.h
:
typedef struct PyModuleDef_Base {
PyObject_HEAD // Заголовок PyObject
PyObject (m_init)(void); // Указатель на функцию init
Py_ssize_t m_index; // Индекс
PyObject m_copy; // Необязательный указатель на функцию copy()
} PyModuleDef_Base;
...
typedef struct PyModuleDef{
PyModuleDef_Base m_base; // Базовые данные
const char* m_name; // Имя модуля
const char* m_doc; // Строка документации модуля
Py_ssize_t m_size; // Размер модуля
PyMethodDef m_methods; // Список методов, завершающийся NULL, NULL, NULL, NULL
struct PyModuleDef_Slot m_slots; // Объявленные слоты для протоколов Python (например - eq, contains)
traverseproc m_traverse; // Необязательный пользовательский метод обхода
inquiry m_clear; // Необязательный пользовательский метод очистки
freefunc m_free; // Необязательный пользовательский метод освобождения памяти (вызывается, когда модуль уничтожается сборщиком мусора)
} PyModuleDef;
...
Мы можем воссоздать эти структуры в ассемблере, пользуясь знаниями о требованиях к памяти, которые предъявляют базовые типы C:
default rel
bits 64
section .data
modulename db "pymult", 0
docstring db "Simple Multiplication function", 0
struc moduledef
;pyobject header
m_object_head_size: resq 1
m_object_head_type: resq 1
;pymoduledef_base
m_init: resq 1
m_index: resq 1
m_copy: resq 1
;moduledef
m_name: resq 1
m_doc: resq 1
m_size: resq 1
m_methods: resq 1
m_slots: resq 1
m_traverse: resq 1
m_clear: resq 1
m_free: resq 1
endstruc
section .bss
section .text
Затем мы можем объявить глобальную функцию, которая будет экспортирована в виде символа при компиляции этой общей библиотеки:
global PyInit_pymult
Функция init
может загружать подходящие значения в структуру moduledef:
PyInit_pymult:
extern PyModule_Create2
section .data
_moduledef:
istruc moduledef
at m_object_head_size, dq 1
at m_object_head_type, dq 0x0 ; null
at m_init, dq 0x0 ; null
at m_index, dq 0 ; zero
at m_copy, dq 0x0 ; null
at m_name, dq modulename
at m_doc, dq docstring
at m_size, dq 2
at m_methods, dq 0 ; null - нет функций
at m_slots, dq 0 ; null - нет слотов
at m_traverse, dq 0 ; null
at m_clear, dq 0 ; null - нет пользовательской функции clear()
at m_free, dq 0 ; null - нет пользовательской функции free()
iend
Инструкции функции init
будут следовать соглашению о вызовах System-V, вызывая PyModule_Create2(&_moduledef, 1033)
:
section .text
push rbp ; защитить указатель стека от изменений
mov rbp, rsp
lea rdi, [_moduledef] ; загрузить moduledef
mov esi, 0x3f5 ; 1033 - версия API модуля
call PYMODULE_CREATE2 ; создать модуль, оставить возвращаемое значение в регистре и вернуть результат
mov rsp, rbp ; восстановить указатель стека
pop rbp
ret
Константа 0x3f5
— это 1033
— версия используемого нами API CPython.
Чтобы скомпилировать исходный код, нам нужно ассемблировать файл pymult.asm
, а потом — скомпоновать его с библиотекой libpythonXX
. Это двухшаговая процедура. На первом шаге создают, с использованием nasm
, объектный файл. На втором шаге компонуют объектный файл с библиотекой Python 3.X (в моём случае — 3.9).
Для macOS мы используем объектный формат macho64
, включим отладочные символы с использованием флага -g
и сообщим компилятору NASM о том, что все символы должны иметь префикс _
. Когда внешний модуль будет подключён к программе, PyModule_Create2
будет вызывать в macOS PyModule_Create2
. А позже мы попробуем поработать с Linux и там такого префикса не будет.
nasm -g -f macho64 -DMACOS --prefix= pymult.asm -o pymult.obj
cc -shared -g pymult.obj -L/Library/Frameworks/Python.framework/Versions/3.9/lib -lpython3.9 -o pymult.cpython-39-darwin.so
Эта команда создаст артефакт pymult.cpython-39-darwin.so
, который можно загрузить в CPython. Мы собираем проект с включёнными отладочными символами (флаг -g
), поэтому сможем воспользоваться отладчиком lldb или gdb для установки в ассемблерном коде точек останова.
$ lldb python3.9
(lldb) target create "python3.9"
Current executable set to 'python3.9' (x86_64).
(lldb) b pymult.asm:128
Breakpoint 2: where = pymult.cpython-39-darwin.so`PyInit_pymult + 16, address = 0x00000001059c7f6c
Когда модуль загружается — lldb доходит до точки останова. Запустить процесс можно с использованием аргументов -c 'import pymult'
для того, чтобы импортировать новый модуль и выйти:
(lldb) process launch -- -c "import pymult"
Process 30590 launched: '/Library/Frameworks/Python.framework/Versions/3.9/Resources/Python.app/Contents/MacOS/Python' (x86_64)
1 location added to breakpoint 1
Process 30590 stopped
thread #1, queue = 'com.apple.main-thread', stop reason = breakpoint 1.1
frame #0: 0x00000001007f6f6c pymult.cpython-39-darwin.so`PyInit_pymult at pymult.asm:128
125
126 lea rdi, [_moduledef] ; load module def
127 mov esi, 0x3f5 ; 1033 - module_api_version
-> 128 call PyModule_Create2 ; create module, leave return value in register as return result
129
130 mov rsp, rbp ; reinit stack pointer
131 pop rbp
Target 0: (Python) stopped.
Ура! Модуль инициализируется! В этот момент можно манипулировать регистрами или визуализировать данные.
(lldb) reg read
General Purpose Registers:
rax = 0x00000001007d3d20
rbx = 0x0000000000000000
rcx = 0x000000000000000f
rdx = 0x0000000101874930
rdi = 0x00000001007f709a pymult.cpython-39-darwin.so..@31.strucstart rsi = 0x00000000000003f5 rbp = 0x00007ffeefbfdbf0 rsp = 0x00007ffeefbfdbf0 r8 = 0x0000000000000000 r9 = 0x0000000000000000 r10 = 0x0000000000000000 r11 = 0x0000000000000000 r12 = 0x00000001007d3cf0 r13 = 0x000000010187c670 r14 = 0x00000001007f6f5c pymult.cpython-39-darwin.soPyInit_pymult
r15 = 0x00000001003a1520 Python_Py_PackageContext rip = 0x00000001007f6f6c pymult.cpython-39-darwin.soPyInit_pymult + 16
rflags = 0x0000000000000202
cs = 0x000000000000002b
fs = 0x0000000000000000
gs = 0x0000000000000000
Ещё отладчик позволяет исследовать кадры и просматривать содержимое стековых кадров:
(lldb) fr info
frame #0: 0x0000000101adbf6c pymult.cpython-39-darwin.so`PyInit_pymult at pymult.asm:128
(lldb) bt
thread #1, queue = 'com.apple.main-thread', stop reason = breakpoint 1.1
* frame #0: 0x0000000101adbf6c pymult.cpython-39-darwin.soPyInit_pymult at pymult.asm:128 frame #1: 0x000000010023326a Python_PyImport_LoadDynamicModuleWithSpec + 714
frame #2: 0x0000000100232a2a Python_imp_create_dynamic + 298 frame #3: 0x0000000100166699 Pythoncfunction_vectorcall_FASTCALL + 217
frame #4: 0x000000010020131c Python_PyEval_EvalFrameDefault + 28636 frame #5: 0x0000000100204373 Python_PyEval_EvalCode + 2611
frame #6: 0x00000001001295b1 Python_PyFunction_Vectorcall + 289 frame #7: 0x0000000100203567 Pythoncall_function + 471
frame #8: 0x0000000100200c1e Python_PyEval_EvalFrameDefault + 26846 frame #9: 0x0000000100129625 Pythonfunction_code_fastcall + 101
Для компиляции кода в расчёте на Linux нам нужно прибегнуть к поддержке PIE или PIC (Position-Independent Code, позиционно-независимый программный код). Обычно это делается компилятором GCC, но, так как мы пишем код на чистом ассемблере, нам придётся всё делать самостоятельно. Позиционно-независимый код может быть выполнен, без модификации, при размещении его в любом месте памяти. Единственные компоненты, при работе с которыми нам нужно учитывать позиции, это внешние ссылки на C API Python.
Мы не будем объявлять внешние символы так, как делали для macOS, рассчитывая на их статическое размещение в памяти:
call PyModule_Create2
Нам нужно иметь возможность обращаться к позиции символа с учётом глобальной таблицы смещений (Global Offset Table, GOT). В NASM имеется краткая конструкция для обращения к позициям символов в виде смещений с учётом таблицы компоновки процедур (Procedure Linkage Table, PLT) или GOT:
call PyModule_Create2 wrt ..plt
Вместо того чтобы поддерживать два файла с исходным кодом, один — для PIE-систем, другой — для систем, где PIE не используется, мы можем воспользоваться макросами NASM для замены инструкций при использовании NOPIE
:
%ifdef PIE
%define PYARG_PARSETUPLE PyArg_ParseTuple wrt ..plt
%define PYLONG_FROMLONG PyLong_FromLong wrt ..plt
%define PYMODULE_CREATE2 PyModule_Create2 wrt ..plt
%else
%define PYARG_PARSETUPLE PyArg_ParseTuple
%define PYLONG_FROMLONG PyLong_FromLong
%define PYMODULE_CREATE2 PyModule_Create2
%endif
Затем заменим call PyModule_Create2
на значение из макроса call PYMODULE_CREATE2
. При ассемблировании кода NASM заменит это на правильную инструкцию.
Linux использует, в отличие от macOS, формат ELF, а не macho64, поэтому укажем выходной формат файлов при вызове NASM:
nasm -g -f elf64 -DPIE pymult.asm -o pymult.obj
cc -shared -g pymult.obj -L/usr/shared/lib -lpython3.9 -o pymult.cpython-39-linux.so
Добавление функции в модуль
При инициализации модуля мы в виде списка функций используем значение 0 (NULL). Если мы воспользуемся тем же паттерном, что и раньше, структура PyMethodDef
будет выглядеть так:
struct PyMethodDef {
const char ml_name; / Имя встроенной функции или встроенного метода /
PyCFunction ml_meth; / C-функция, реализующая эту функцию или этот метод /
int ml_flags; / Комбинация флагов METH_xxx, которые, по большей части,
описывают аргументы, необходимые C-функции */
const char ml_doc; / Атрибут doc или NULL */
};
На ассемблере эти поля можно представить так:
struc methoddef
ml_name: resq 1
ml_meth: resq 1
ml_flags: resd 1
ml_doc: resq 1
ml_term: resq 1 // Завершающий NULL
ml_term2: resq 1 // Завершающий NULL
endstruc
method1name db "multiply", 0
method1doc db "Multiply two values", 0
_method1def:
istruc methoddef
at ml_name, dq method1name
at ml_meth, dq PyMult_multiply
at ml_flags, dd 0x0001 ; METH_VARARGS
at ml_doc, dq 0x0
at ml_term, dq 0x0 ; Объявления методов завершаются двумя значениями NULL,
at ml_term2, dq 0x0 ; которые эквивалентны qword[0x0], qword[0x0]
iend
Затем объявим функцию, эквивалентную аналогичной C-функции:
static PyObject* PyMult_multiply(PyObject *self, PyObject *args) {
long x, y, result;
if (!PyArg_ParseTuple(args, "LL", &x, &y))
return NULL;
result = x * y;
return PyLong_FromLong(result);
}
Для написания модулей расширений на C (или на ассемблере) нужно уметь обращаться с C API Python. Например, если вы работаете с целыми числами в Python, то для их представления в памяти не подходят простые низкоуровневые структуры памяти, вроде тех, что используются для представления C-типа long
. Для того чтобы преобразовать С-тип long
в Python-тип long
, нужно вызвать функцию PyLong_FromLong()
. А для обратного преобразования — функцию PyLong_AsLong()
. Так как в Python числа типа long
могут быть больше, чем числа C-типа с таким же названием, при подобном преобразовании существует риск переполнения. Поэтому для решения той же задачи можно воспользоваться функцией PyLong_AsLongAndOverFlow()
. А если long-значение Python уместится в значения C-типа long long
— можно воспользоваться функцией PyLong_AsLongLong()
.
Выполнение вышеописанных действий сводится к передаче аргументов функции PyArg_ParseTuple()
, которая конвертирует кортеж аргументов метода в родные типы C. Этой функции передают особую форматную строку и список указателей на целевые адреса.
Вот пример вызова этой функции, после которого аргументы преобразуются в два C-значения типа long
(LL), а результаты преобразования размещаются в указанных адресах:
PyArg_ParseTuple(args, "LL", &x, &y)
Решая ту же задачу в ассемблере, функции PyArg_ParseTuple
передают аргументы (в rsi
), строку в виде константы и адреса двух зарезервированных мест в памяти, размер которых соответствует учетверённому слову.
В ассемблере это делается с использованием инструкции lea
:
lea rdx, [x]
Преобразовать C-функцию в функцию, написанную на ассемблере, можно, прибегнув к соглашению о вызовах System-V:
global PyMult_multiply
PyMult_multiply:
;
; pymult.multiply (a, b)
; Multiplies a and b
; Returns value as PyLong(PyObject*)
extern PyLong_FromLong
extern PyArg_ParseTuple
section .data
parseStr db "LL", 0 ; преобразование аргументов в тип long long
section .bss
result resq 1 ; результат типа long
x resq 1 ; входное значение типа long
y resq 1 ; входное значение типа long
section .text
push rbp ; защитить указатель стека от изменений
mov rbp, rsp
push rbx
sub rsp, 0x18
mov rdi, rsi ; аргументы
lea rsi, [parseStr] ; Преобразование аргументов в LL
xor ebx, ebx ; очистить ebx
lea rdx, [x] ; сделать адрес x 3-м аргументом
lea rcx, [y] ; сделать адрес y 4-м аргументом
xor eax, eax ; очистить eax
call PYARG_PARSETUPLE ; Разобрать аргументы с помощью C-API
test eax, eax ; если PyArg_ParseTuple - NULL, выйти с ошибкой
je badinput
mov rax, [x] ; умножить x и y
imul qword[y]
mov [result], rax
mov edi, [result] ; преобразовать результат в PyLong
call PYLONG_FROMLONG
mov rsp, rbp ; восстановить указатель стека
pop rbp
ret
badinput:
mov rax, rbx
add rsp, 0x18
pop rbx
pop rbp
ret
Далее, изменим определение модуля, включив в него определение нового метода at m_methods, dq _methoddef
.
Если вы — пользователь Mac — рекомендую вам Hopper Disassembler, так как он поддерживает полезный режим вывода данных в виде псевдокода. Если открыть в нём свежий .so-файл и посмотреть на код только что созданной функции — можно убедиться в том, что её C-подобное представление выглядит примерно так, как того можно ожидать:
Работа с Hopper Disassembler
После повторной компиляции и повторного импорта модуля можно будет увидеть функцию в dir (pymult), и то, что она принимает два аргумента.
Установите точку останова в строке 77:
(lldb) b pymult.asm:77
Breakpoint 4: where = pymult.cpython-39-darwin.so`PyMult_multiply + 67, address = 0x00000001019dbf42
Запустите процесс и, после импорта, запустите функцию. Отладчик lldb должен остановиться на точке останова:
(lldb) process launch -- -c "import pymult; pymult.multiply(2, 3)"
Process 39626 launched: '/Library/Frameworks/Python.framework/Versions/3.9/Resources/Python.app/Contents/MacOS/Python' (x86_64)
Process 39626 stopped
thread #1, queue = 'com.apple.main-thread', stop reason = breakpoint 4.1
frame #0: 0x00000001007f6f42 pymult.cpython-39-darwin.so`PyMult_multiply at pymult.asm:77
74 imul qword[y]
75 mov [result], rax
76
-> 77 mov edi, [result] ; convert result to PyLong
78 call PyLong_FromLong
79
80 mov rsp, rbp ; reinit stack pointer
Target 0: (Python) stopped.
(lldb)
Проверить десятичное значение, хранящееся в регистре rax
, можно так:
(lldb) p/d $rax
(unsigned long) $6 = 6
Ура! Работает!
Кстати сказать, на то, чтобы привести это всё в рабочее состояние, мне понадобилось перекомпилировать код 25–30 раз. Глядя в прошлое, я понимаю, что всё это устроено