Docker Swarm+Consul+Gobetween в виде движка для гео распределенного кластера
Преамбула
Некоторе время назад перед нами стала задача спроектировать и развернуть систему для потокового видео. Суть была в массовом запуске/остановке инстанций, на которых происходит обратная сборка потокового видео и стриминг на множество media cdn провайдеров (youtube, livestream, ustream итд), а так же на собственные rtmp и ts точки назначения. Каждая инстанция требовала настройки перед запуском т.к. содержала специфическую для каждого клиента информацию. Так же было понятно что система должна работать в большом количестве регионов (как минимум во всех точках, где присутствует Амазон, а как максимум — в любом месте где можно арендовать сервер).
Также основное требование — запуск инстанции в течении 1–2 секунд максимум, чтобы это было прозрачно для пользователя.
Было это в начале 2015 года уже были разговоры о том что Docker в скором времени выпускает родную систему кластеризации. И 26 февраля 2015 года она таки вышла. Сразу стало понятно что это для нас серебряная пуля и Swarm идеально ложится на наш проект.
Проект был запущен в мае 2015.
Через 11 месяцев мы запустили второй, более сложный проект в котором требовалось организовать статические точки входа (ip: port) для оборудования третьих производителей, расширив при этом всю логику работы и запуска инстанций динамически в нужном регионе.
В процессе проектирования и последующей разработки мы использовали Docker swarm довольно нестандартно. И далее появилась идея как динамически управлять и балансировать своей инфраструктурой. Так же как часть этого пути появился проект Gobetween который должен был помочь нам в будущем гибко управлять нашей инфраструктурой, а так же быть легко реплицируемым.
Задача
В данной статье я хотел бы поделится идеей и принципиальной реализацией построения распределенной системы.
Я специально опущу аспект безопасности — тут уж каждый решает как / что лучше строить. Некоторые закрываются паролями/сертификатами и т.д., некоторые выносят менеджмент часть в сети не пересекающиеся напрямую с сетями общего доступа (живут внутри vpc и связаны между собой по-средством тоннелей).
Принципиальная схема докер кластера на Standalone Swarm.
Рассмотрим систему принципиально — как большое колличество регионов и с одним ядром (урпавляющим).
В данном случае рассматривается система с одним мастером и большим количеством докер хостов, которые анонсируют себя в консул кластер.
Почему так? да потому что по сути Manage не представляет никакой ценности сам по себе — в нем никаких данных, которые не хотелось бы потерять.
В нем даже настроек толком нет — он является планировщиком задач для списка докер нод, который он берет из Consul кластера.
Более того — таких Мanagе инстанций при желании можно сделать сколько угодно, но смысла нет — ниже объясню почему.
Самый большой плюс этакой системы — все прозрачно, управляемо, масштабируемо.
Итак, начнем с конфигурирования консул кластера.
Установка и настройка Consul Клстера
На выходе мы хотим получить такую структуру кластера:
3 ноды в RAFT с авто выбором мастера.
sever1.consul.example.com 10.0.0.11 bootstrap consul server , consul agent
sever2.consul.example.com 10.0.0.12 consul server , consul agent
sever2.consul.example.com 10.0.0.13 consul server , consul agent
Сначала устрановим Consul на server (N).consul.example.com:
Качаем консул с https://consul.io
Никаких контейнеров, консул под UPSTART.
$wget https://releases.hashicorp.com/consul/0.6.4/consul_0.6.4_linux_amd64.zip
$unzip *.zip
$mv consul /usr/sbin/consul
Проверяем что Consul работает:
$consul --version
Consul v0.6.4
Consul Protocol: 3 (Understands back to: 1)
После установки на всех трех серверах — подготовим кластер к первичной загрузке:
Генерируем кластерный токен :
$consul keygen
ozgffIYeX6owI0215KWR5Q==
Создаем пользователя из под которого будет запускаться Consul:
$adduser consul
Создаем на всех 3 серверах необходимые директории:
$mkdir -p /etc/consul.d/{bootstrap,server,client}
Создаем директории для хранения данных Консула:
$mkdir /var/consul
$chown consul:consul /var/consul
На ноде которую мы будем использовать для первичного запуска кластера (sever1.consul.example.com) нужно создать bootstrap конфиг:
$vim /etc/consul.d/bootstrap/config.json
{
"bootstrap": true,
"server": true,
"datacenter": "production",
"data_dir": "/var/consul",
"encrypt": "",
"log_level": "INFO",
"encrypt":ozgffIYeX6owI0215KWR5Q==,
"enable_syslog": true
}
На ВСЕХ трех серверах нужно создать серверный конфиг /etc/consul.d/server/config.json:
Server1:
{
"bootstrap": false,
"server": true,
"datacenter": "production",
"data_dir": "/var/consul",
"encrypt": "ozgffIYeX6owI0215KWR5Q==",
"log_level": "INFO",
"enable_syslog": true,
"start_join": ["10.0.0.12", "10.0.0.13"]
}
Server2
{
"bootstrap": false,
"server": true,
"datacenter": "production",
"data_dir": "/var/consul",
"encrypt": "ozgffIYeX6owI0215KWR5Q==",
"log_level": "INFO",
"enable_syslog": true,
"start_join": ["10.0.0.11", "10.0.0.13"]
}
Server3:
{
"bootstrap": false,
"server": true,
"datacenter": "production",
"data_dir": "/var/consul",
"encrypt": "ozgffIYeX6owI0215KWR5Q==",
"log_level": "INFO",
"enable_syslog": true,
"start_join": ["10.0.0.11", "10.0.0.12"]
}
Теперь создадим UPSTART скрипт для Consul на всех серверах: /etc/init/consul.conf:
description "Consul server process"
start on (local-filesystems and net-device-up IFACE=eth0)
stop on runlevel [!12345]
respawn
setuid consul
setgid consul
exec consul agent -config-dir /etc/consul.d/server
Первичный запуск кластера
Проинициализируем наш кластер (Первичный запуск): на sever1.consul.example.com:
#consul agent -config-dir /etc/consul.d/bootstrap
Сервис должен запустится и захватить терминал. В bootstrap режиме сервер сам назначает себя мастером и инициализирует все нужные структуры данных.
На остальных двух серверах (sever2.consul.example.com, sever3.consul.example.com) просто запускается консул в режиме сервера.
#start consul
Эти сервера подсоединяются к bootstrap серверу. В данный момент мы имеем кластер из трех серверов, два из которых — работают в обычном режиме сервера, и один — в режиме инициализации, что значит что он сам принимает решения по распространению данных не спрашивая остальных.
Теперь мы можем остановить bootstrap сервер и перезапустить консул в режиме стандартного сервера:
На bootstrap сервере нажмите:
CTRL-C
Консул остановится и затем перезапустите в режиме стандартного сервера :
sever1.consul.example.com:
#consul start
Проверьте что все прошло хорошо с помощью такой команды:
#consul members -rpc-addr=10.0.0.11:8400
Вывод должен быть :
Node Address Status Type Build Protocol DC
server1.consul.example.com 10.0.0.11:8301 alive server 0.6.4 2 production
server2.consul.example.com 10.0.0.12:8301 alive server 0.6.4 2 production
server3.consul.example.com 10.0.0.13:8301 alive server 0.6.4 2 production
Итак, у нас есть готовый и работоспособный консул кластер.
Балансировщик нагрузки, как фронтенд консул кластера
В данном случае мы будем использовать балансировщик нагрузки и все запросы к консул кластеру будут идти через него.
В случае Амазона использование консул агентов из разных VPC, не говоря уже о регионах имеет много неразрешенных проблем (анонс своего внутреннего IP вместо указанного при старте внешнего, что рушит второй этап входа ноды/сервера в кластер), а поднимать консул кластер в каждом регионе и настраивать синхронизацию — с мой точки зрения на данном этапе не рационально.
Устанавливаем Consul Agent
По аналогии — скачаем и установим на сервер, где будет находится наш балансировщик, Consul.
потом создадим конфиг агента :
$vim /etc/consul.d/server/config.json
{
"server": false,
"datacenter": "production",
"data_dir": "/var/consul",
"ui_dir": "/home/consul/dist",
"encrypt": "ozgffIYeX6owI0215KWR5Q==",
"log_level": "INFO",
"enable_syslog": true,
"start_join": ["10.0.0.11", "10.0.0.12", "10.0.0.13"]
}
создадим upstart для агента:
description "Consul server process"
start on (local-filesystems and net-device-up IFACE=eth0)
stop on runlevel [!12345]
respawn
setuid consul
setgid consul
exec consul agent -config-dir /etc/consul.d/agent
стартуем агент :
$start consul
проверим что у нас вышло:
$consul members -rpc-addr=10.0.0.11:8400
после запуска вывод должен быть что-то вроде:
Node Address Status Type Build Protocol DC
server1.consul.example.com 10.0.0.11:8301 alive server 0.6.4 2 production
server2.consul.example.com 10.0.0.12:8301 alive server 0.6.4 2 production
server3.consul.example.com 10.0.0.13:8301 alive server 0.6.4 2 production
lb.consul.example.com 10.0.0.1:8301 alive client 0.6.4 2 production
Настраиваем Gobetween в виде балансировщика.
в предыдущих статьях я описывал часть функционала нашего ЛБ.
в данном случае проще всего использовать EXEC discovery вместе с Consul agent установленном локально — это позволяет смотреть на консул кластер изнутри (ведь в будущем вполне может получится что мы добавим/уберем часть нод и тогда лб не придется перенастраивать).
качаем последний релиз (версия может потом сменится, так что следите за релизами):
$wget https://github.com/yyyar/gobetween/releases/download/0.3.0/gobetween_0.3.0_linux_amd64.tar.gz
$tar -xvf gobetween_0.3.0_linux_amd64.tar.gz
$cp gobetween_0.3.0_linux_amd64/gobetween /usr/sbin
Итак, давайте создадим скрипт определения списка доступных consul бекенд серверов, который будет возвращать список серверов прошедших проверку и у которые зарегистрированы к консуле и отмечены сервисом CONSUL
создадим директорию для конфигов и дискавери скриптов
$mkdir /etc/gobetween/
создадим дискавери скрипт :
$vim /etc/gobetween/consul_node_discovery.sh
такого содержания:
#!/bin/bash
curl -Ss http://0.0.0.0:8500/v1/catalog/service/consul |jq '.[] | .Address' |sed 's/"//g'| sed 's/$/:8500/'
если запустить от руки вывод скрипта должен быть что-то типа :
10.0.0.11:8500
10.0.0.12:8500
10.0.0.13:8500
при данном типе получения списка рабочих серверов хелсчеки мы использовать не будем — оставим это самому консул кластеру.
теперь настроим сам Gobetween:
$vim /etc/gobetween/gobetween.toml
[logging]
level = "info"
output = "stdout"
[api]
enabled = true
bind = ":8888"
[api.basic_auth]
login = "admin"
password = "admin"
[defaults]
max_connections = 0
client_idle_timeout = "0"
backend_idle_timeout = "0"
backend_connection_timeout = "0"
[servers.consul]
bind = "10.0.0.1:8500"
protocol = "tcp"
balance = "iphash"
max_connections = 0
client_idle_timeout = "10m"
backend_idle_timeout = "10m"
backend_connection_timeout = "5s"
[servers.consul.access]
default = "deny"
rules = [
"allow 99.99.99.1/24", # region1 docker nodes ip`s pool
"allow 199.199.199.1/24", # region 2 docker nodes pool
"allow 200.200.200.200/32", #mage node
"allow 99.99.98.1/32 " #region-1 load balancer
]
[servers.consul.discovery]
failpolicy = "keeplast"
interval = "10s"
timeout = "5s"
kind = "exec"
exec_command = ["/etc/gobetween/consul_node_discovery.sh"]
теперь создадим upstart скрипт /etc/init/gоbetween.conf:
$vim /etc/init/gоbetween.conf
# gobetween service
description "gobetween"
env DAEMON=/usr/sbin/gobetween
env NAME=gobetween
env CONFIG_PATH=/etc/gobetween/gobetween.toml
export GOMAXPROCS=`nproc`
start on runlevel [2345]
stop on runlevel [!2345]
kill signal INT
respawn
respawn limit 10 5
umask 022
expect stop
respawn
script
exec $DAEMON -c $CONFIG_PATH 2>&1
end script
post-stop script
pid=`pidof gobetween`
kill -9 $pid
end script
и теперь запустим балансировщик:
$start gobetween
Теперь у нас есть кластер, можно зайти на
http://lb_ip:8888/servers/consul
и проверить что список серверов консула определился успешно .
установка Докер нод (серверов с докером)
Наши ноды будут жить в 2 подсетях:
99.99.99.1/24 - region 1
199.199.199.1/24 -region 2
так же внешний ELASTIC IP в Aмазоне — 50.50.50.50
Docker
Итак, повторять тут шаги установки докера на сервер не вижу смысла.
Их можно прочесть тут .
Я же остановлюсь только на специфических вопросах.
Так же следует отметить — данное руководство работает для 12 и 14 веток Ubuntu, для Ubuntu 16 требуются те же настройки докер демона, но делаются они чуть по другому.
Начнем с конфигурации докер демона и его запуска.
отредактируем строку инициализации докер демона:
vim /etc/default/docker
требуется добавить строку ниже, остальные строки — закомментировать:
DOCKER_OPTS="-H tcp://0.0.0.0:2375 -H unix:///var/run/docker.sock --label region=region1 "
далее перезагрузим Docker:
$service docker restart
после этого требуется убедиться что докер демон запустился с нужными настройками:
$ps ax |grep docker
должны увидеть что-то типа этого :
10174 ? Ssl 264:59 /usr/bin/docker daemon -H tcp://0.0.0.0:2375 -H unix:///var/run/docker.sock --label region=region
Swarm join
установим Docker Swarm на наш сервер с уже установленным докером.
я не использую Docker Swarm в контейнерах, мне нравится когда все прозрачно и когда я могу инициализировать именно так как хочу и контролировать его по средством простого upstart.
Итак, самый простой способ заполучить бинарный файл со свормом — это скачать его образ себе на локальную машину, потом распакровать образ и извлечь любым возможным способом.
Я же предпочитаю собирать его для себя сам. Решать как лучше я оставлю читателю.
Представим что у нас уже есть бинарник с Docker Swarm, мы скопировали его на наш настраиваемый сервер с докером. теперь нам нужно просто настроить Swarm по средством написания upstart скрипта:
$vim /etc/init/swarm.conf
```upstart
description "Consul server process"
start on (local-filesystems and net-device-up IFACE=eth0)
stop on runlevel [!12345]
respawn
setuid root
setgid root
exec bash -c 'swarm join --ttl 20s --heartbeat 4s --advertise=SERVER_IP:2375 consul://50.50.50.50:8500/swarmcluster/ '
SERVER_IP вы можете легко извлечь сами, у меня он вставляется подставляясь из Elastic IP во время создания сервера в Амазон с помощью Ansible. Это именно тот айпи по которому будет соединятся SWARM Manage к этому докер хосту.
теперь стартуем наш swarm join:
start swarm
проверить можно запросом типа такого
$curl -Ss http://50.50.50.50:8500/v1/kv/swarmcluster/docker/swarm/nodes/?keys&seperator=/&dc=production
и должны получить ответ :
$ ["swarmcluster/docker/swarm/nodes/SERVER_IP:2375"]
Теперь так же размасштабируйте кластер в любое колличество регионов. Меняя в настройках докер демона метки (lables) для каждого региона.
Так же можно добавлять несколько меток на каждый сервер (удобно делить сервера по регионам, а так же, скажем, производительности процессора, размеру памяти, типа диска).
установка Swarm Manage
Итак, теперь перейдем непосредственно к установке нашего сворм менеджера.
По сути, его установка мало чем отличается от установки Swarm Join .
опять же повторяем шаги по копированию бинарника на сервер и далее создаем UPSTART скрипт:
$vim /etc/init/swarm.conf
description "Consul server process"
start on (local-filesystems and net-device-up IFACE=eth0)
stop on runlevel [!12345]
respawn
setuid root
setgid root
exec bash -c 'swarm manage -H tcp://$0.0.0.0:2377 -strategy "binpack" consul://50.50.50.50:8500/swarmcluster/'
SWARM_MANAGE_IP это айпи нашего Manage. В нашем случае — 200.200.200.200
Остановимся на -strategy эта опция определяет распределение контейнеров по нодам соответствующим все параметрам выборок.
при стратегии binpack — вначале заполняется контейнерами первая нода, только потом — вторая. Если у вас сотни стартов/остановок контейнеров в час — это позволяет избежать фрагментации и позволяет удалять ненужные ноды из кластера.
Существуют 3 вида стратегий распределения контейнеров:
spread — распределение на наименее загруженную ноду
binpack — максимально плотная упаковка контейнеров
random — тут нечего и говорить — все и так понятно :) используется только для дебага.
теперь наконец запустим наш swarm manage:
$service swarm start
и проверим что у нас вышло :
$docker -H 0.0.0.0:2377 info
и получим что-то вроде этого :
Containers: 1
Images: 3
Server Version: swarm/1.2.4
Role: primary
Strategy: binpack
Filters: health, port, dependency, affinity, constraint
Nodes: 3
host1: 99.99.99.1:2375
└ Status: Healthy
└ Containers: 0
└ Reserved CPUs: 0 / 8
└ Reserved Memory: 0 B / 16.46 GiB
└ Labels: executiondriver=, kernelversion=3.13.0-86-generic, operatingsystem=Ubuntu 14.04.4 LTS, region=region-1, storagedriver=devicemapper
└ Error: (none)
└ UpdatedAt: 2016-08-21T14:40:03Z
host3: 99.99.99.2:2375
└ Status: Healthy
└ Containers: 0
└ Reserved CPUs: 0 / 2
└ Reserved Memory: 0 B / 3.86 GiB
└ Labels: executiondriver=native-0.2, kernelversion=3.13.0-74-generic, operatingsystem=Ubuntu 14.04.3 LTS, region=region-1, storagedriver=devicemapper
└ Error: (none)
└ UpdatedAt: 2016-08-21T14:40:42Z
host3: 199.199.199.1:2375
└ Status: Healthy
└ Containers: 1
└ Reserved CPUs: 0 / 2
└ Reserved Memory: 512 MiB / 3.86 GiB
└ Labels: executiondriver=native-0.2, kernelversion=3.13.0-74-generic, operatingsystem=Ubuntu 14.04.3 LTS, region=region-2, storagedriver=devicemapper
└ Error: (none)
└ UpdatedAt: 2016-08-21T14:40:55Z
Kernel Version: 3.13.0-44-generic
Operating System: linux
CPUs: 12
Total Memory: 24.18 GiB
Name: lb.ourcoolcluster.com
по сути можно уже запускать контейнера :
$docker tcp://0.0.0.0:2377 run -d -P -e constraint:region==region-1 hello-world
Более подробно о фильтрах и политиках можно почитать тут.
Итак, у нас есть кластер, в котором можно запускать контейнера в зависимости от региона, и других данных.
что же дальше? — попробуем организовать по точку входа для каждого региона.
Создание enterypoint для каждого региона
Теперь попробуем построить сервис дискавери на исключительно внутренних механизмах Sandalone Swarm.
Мы будем пользоваться лейблами при запуске контейнеров. Можно делать это руками, или написать свой движок который будет запускать нужные контейнера и одновременно по rest api работать с Балансировщиком. В данной схеме LB настраивается один раз при старте нового сервиса в регионе, где его до этого не было. после этого можно спокойно запускать реплики сервиса по мере роста нагрузки, а так же останавливать контейнера при ее падении — дискавери списка нод предоставляющих сервис сделает сам балансировщик.
Так же если это необходимо — можно легко держать реплику консула в регионе и так же реплику Swarm managе.
Но мы рассмотрим простейшую схему.
Общая схема как все будет работать :
Установку Gobetween мы опустим, приведем толко конфиг с которым он будет запущен:
[logging]
level = "info"
output = "stdout"
[api]
enabled = true
bind = ":8888"
[api.basic_auth]
login = "admin"
password = "admin"
[defaults]
max_connections = 0
client_idle_timeout = "0"
backend_idle_timeout = "0"
backend_connection_timeout = "0"
Этого вполне достаточно для старта балансировщика. все последующие процедуры мы будем проводить через rest api — обычно этим занимаются специальные сервисы.
Так же для упрощения тестирования — на каждом докер сервере создайте файл /tmp/test и пропишите туда уникальную для каждого сервера информацию. Например «host1» и «host2»
для примера запустим контейнер:
$docker run -l service=region-1.nginx -d -p 22001:80 -e constraint:region==region-1 -v /tmp/test:/usr/share/nginx/html:ro nginx
$docker run -l service=region-1.nginx -d -p 22001:80 -e constraint:region==region-1 -v /tmp/test:/usr/share/nginx/html:ro nginx
Если у нас в регионе region-1 будет 2 и более нод то контейнера запустятся (Docker Swarm проверяет доступность портов для маппинга)
В случае одной докер ноды в регионе можно запустить 2 конейнера таким образом:
$docker run -l service=region-1.nginx -d -p 22002:80 -e constraint:region==region-1 -v /tmp/test:/usr/share/nginx/html:ro nginx
$docker run -l service=region-1.nginx -d -p 22001:80 -e constraint:region==region-1 -v /tmp/test:/usr/share/nginx/html:ro nginx
Контейнеры запустились в нужном регионе и работают.
Теперь настало время настроить наш балансировщик:
$curl --user admin:admin -XPOST "http://50.50.50.50:8888/servers/r1nginx" --data '
{
"bind":"LB_IP:LB_PORT",
"protocol": "tcp",
"balance": "weight",
"max_connections": "0",
"client_idle_timeout": "10m",
"backend_idle_timeout": "10m",
"backend_connection_timeout": "1m"
"healthcheck": {
"kind": "ping",
"interval": "2s",
"timeout": "1s"
},
"discovery": {
"kind": "docker",
"docker_endpoint" : "http://50.50.50.50:2377",
"docker_container_private_port" : "80",
"docker_container_label":"service=region-1.nginx"
}
}
'
Где:
LB_IP — IP адрес смотрящий в сторону проверяющего на сервере с запущенным балансировщиком.
LB_PORT — tcp порт на LB_IP смотрящий в сторону проверяющего на сервере с запущенным балансировщиком .
Вот теперь можно проверять что у нас вышло:
$curl -sS http://LB_IP:LB_PORT
host1
$curl -sS http://LB_IP:LB_PORT
host2
Итак, мы рассмотрели один из самых простых, но и при том и довольно таки функциональных способов построения гео распределенного кластера на Docker Swarm standalone. Установка довольно проста и прозрачна, как и поиск и устранение неисправностей.
Продумывая данную статью я отдавал себе отчет что не смогу осветить многие аспекты построения и эксплуатации системы данного типа, я преследовал скорее цель заставить читателя взглянуть на проблему под другим углом — необходимой достаточности и аскетичности, ведь сложно сделать легко, а вот легко и стройно — сделать сложно.
Проблемы безопасности и HA я оставил на усмотрение читателей, возможно, если будет интерес я постараюсь их осветить в последующих статьях.
- вторая обзорная статъя
- первая обзорная статъя
- DRAFT Rest API
- Проект на Github
- Вики на Github
- тесты производительности Gobetween
- Установка Gobetween под Windows
Комментарии (2)
26 августа 2016 в 10:55
0↑
↓
Скажите, пожалуйста, а чем gobetween лушче связки nginx+consul-template?26 августа 2016 в 11:11
0↑
↓
Тем что не используется консул для сервис дискавери, и одновременно вы имеете актуальный список рабочих нод вашего сервиса в ЛБ, основываясь на данных самого сворма.
Да, пока что, в начале нужно создавать руками сервис в ЛБ (если у вас нет специального стороннего сервиса для этого). В последствии скорее всего будет реализован режим авто дискавери сервисов сворма на стороне ЛБ, по типу как сделано в регистраторе (на основе определенных переменных окружения).
т.е. вы вообще не заморачиваетесь регистрацией в консуле.Рассматривайте эту статью как некий референс дизайн. по правильному — в каждом регионе можно поднять свой сворм менеджер