[Перевод] Как работают файловые системы Linux-контейнеров

Примечание переводчика: недавно инженер Google Михал Питр написал практический обзор того, как работают файловые системы в контейнерах. Его небольшая статья поможет разобраться, что делает Docker, и вручную создать файловую систему контейнера. Слово автору. 

На выходных я сделал игрушечный клон Docker«а. В процессе возник вопрос, откуда у контейнера берётся файловая система? Чтобы ответить на него, давайте разберёмся, что делает Docker, а потом воспроизведём всё это самостоятельно.

Запустим командную оболочку в Docker-контейнере на базе образа Alpine:

michal@michal-lg:~$ docker run -it --entrypoint /bin/sh --rm --name "alpine-container" alpine
/ # ls
bin    dev    etc    home   lib    media  mnt    opt    proc   root   run    sbin   srv    sys    tmp    usr    var
/ # hostname
a7cbf0aea1ad
/ # cd home && ls

Мы оказались в отдельной файловой системе, и она довольно пустая. Создадим файл:

/ # echo -e "Hello there\nGeneral Kenobi" > /home/hello_there.txt
/ # cat /home/hello_there.txt 
Hello there
General Kenobi

Как думаете, можно ли получить доступ к этому файлу с хоста?

Спойлер

Можно — давайте сделаем это!

Docker хранит всё в директории /var/lib/docker, поэтому запустим второй терминал и поищем:

root@michal-lg:/var/lib/docker# find -name hello_there.txt
./overlay2/1557145fe40a1595d090eeafa72c39a7b54cca4791ae9e3ffafabff06466125c/diff/home/hello_there.txt
./overlay2/1557145fe40a1595d090eeafa72c39a7b54cca4791ae9e3ffafabff06466125c/merged/home/hello_there.txt
root@michal-lg:/var/lib/docker#

Любопытно, что наш файл нашёлся в двух разных директориях. Посмотрим, что ещё есть в diff и merged:

root@michal-lg:/var/lib/docker# find -name hello_there.txt
./overlay2/1557145fe40a1595d090eeafa72c39a7b54cca4791ae9e3ffafabff06466125c/diff/home/hello_there.txt
./overlay2/1557145fe40a1595d090eeafa72c39a7b54cca4791ae9e3ffafabff06466125c/merged/home/hello_there.txt
root@michal-lg:/var/lib/docker#

diff содержит только пустую root-директорию и домашнюю директорию с созданным нами файлом. Содержимое merged полностью совпадает с файловой системой контейнера.

OverlayFS

Docker использует файловую систему OverlayFS. Она позволяет объединить два дерева файлов, «нижнее» и «верхнее», в комбинированный вид «merged». В Docker «верхнее» дерево файлов называется «diff», что, пожалуй, более уместно, и я буду обращаться к нему именно так.

Понять, зачем нужны файловые системы union-типа (см. Каскадно-объединённое монтирование), помогает следующий пример: на одном хосте, как правило, запускается несколько контейнеров. Высока вероятность того, что у них будет одинаковый нижний слой, будь то Alpine, Ubuntu или более специализированный, например Golang.

Если этот слой сделать read-only, его можно будет переиспользовать между контейнерами, сильно экономя место. При этом все изменения будут записываться в верхний слой. Давайте посмотрим, что произошло после создания hello_there.txt:  

Чтобы избежать захламлённости, показывается содержимое только нужных нам директорий

Чтобы избежать захламлённости, показывается содержимое только нужных нам директорий

При создании hello_there.txt в /home тот был записан в diff, а OverlayFS создала объединённый вид в merged:

7062cc1955a10eb3721064c63167015f.png

Что произойдёт, если изменить что-нибудь в нижнем слое? Давайте переименуем /bin/echo в /bin/echo.old:

/ # cd bin
/bin # mv echo echo.old
/bin # ls
...
chgrp          echo.old       gzip           ln             mount          printenv       setserial      umount
...

Как уже говорилось, нижний слой доступен только для чтения, поэтому все правки попадают в diff.

root@michal-lg:/var/lib/docker/overlay2/.../diff/bin# ls -l
total 0
c--------- 1 root root 0, 0 Nov 11 23:06 echo
lrwxrwxrwx 1 root root   12 Sep  6 13:34 echo.old -> /bin/busybox

Файлов теперь два! Один — для более не существующего echo, другой — для echo.old. OverlayFS использует специальные whiteout-файлы для обозначения того, что файл был удалён в верхнем слое (даже если он существует в нижнем read-only-слое). Когда OverlayFS видит этот файл, она знает, что не нужно включать его в merged-представление.

Второй файл гораздо менее интересен: это просто переименованный echo, который на поверку оказывается символической ссылкой на busybox:

743c6e0aa89313b96a17608a6c42a938.png

Создаём файловую систему в контейнере

Теперь давайте посмотрим, как Docker создаёт новую файловую систему с помощью OverlayFS.

Сначала создадим временные директории в /tmp/ — они и станут файловой системой нашего контейнера:

michal@michal-lg:/tmp$ mkdir -p /tmp/container-demo/{diff,merged,work}
michal@michal-lg:/tmp$ ls container-demo/
diff  merged  work

С diff и merged мы уже встречались. work — рабочая директория OverlayFS, и нас она не интересует.

Загрузим Alpine minirootfs для нужной архитектуры процессора и распакуем его в /tmp/container-demo/. Я переименую извлечённую папку в «alpine»:

michal@michal-lg:/tmp/container-demo$ ls
alpine  diff  merged  work

Всё настроено, можно монтировать файловую систему OverlayFS:

michal@michal-lg:/tmp/container-demo$ sudo mount -t overlay  overlay  -o lowerdir=alpine,upperdir=diff,workdir=work  merged

Если теперь вывести содержимое merged, увидим файловую систему Alpine:

michal@michal-lg:/tmp/container-demo/merged$ ls
bin  etc   lib    mnt  proc  run   srv  tmp  var
dev  home  media  opt  root  sbin  sys  usr

Если создать там файл, он будет записан в diff:

michal@michal-lg:/tmp/container-demo/merged$ echo hello > hello.txt
michal@michal-lg:/tmp/container-demo/merged$ ls
bin  etc        home  media  opt   root  sbin  sys  usr
dev  hello.txt  lib   mnt    proc  run   srv   tmp  var
michal@michal-lg:/tmp/container-demo/merged$ ls ../diff/
hello.txt

В заключение можно запустить новый shell-процесс и установить merged в качестве его корневой директории. То же самое происходит в контейнерах — так те получают свою собственную файловую систему. Любой процесс, порождённый этим shell-процессом, унаследует корневую директорию и сможет работать со своей файловой системой.

michal@michal-lg:/tmp/container-demo$ sudo chroot merged /bin/sh
/ # ls
bin        hello.txt  media      proc       sbin       tmp
dev        home       mnt        root       srv        usr
etc        lib        opt        run        sys        var
/ # cd ..
/ #

Полноценная реализация отличается от нашей тем, что в ней используются пространства имён для дополнительной изоляции. Подробнее о них можно узнать из man-страниц Linux.

Заключение

Для подавляющего большинства инженеров контейнеры — это чёрный ящик. Надеюсь, теперь у вас появилось понимание того, как они работают.

Ещё у меня есть более полный клон Docker’а примерно из 200 строк кода, написанный на Golang, — заходите, если интересно!

P. S.

Читайте также в нашем блоге:

© Habrahabr.ru