Библиотека для синхронизации состояния
Так случилось, что на одном проекте потребовалось реформировать способ обмена данными между различными процессами. Исторически сложившаяся схема была довольно неприглядна. Один процесс периодически перезаписывал свои текущие настройки в виде XML-файла. Второй вычитывал этот файл раз в секунду, проверяя, что в нём поменялось с прошлого раза. Изменения файла вычислялись через множество сравнений текущего и прошлого его состояний, порождая некоторую цепочку действий. Читающий процесс писал в свою очередь другой XML-файл, который читался третьим процессом и т.п. Самое печальное то, что данная схема требовала громоздкого, из раза в раз повторяющегося кода сравнений, который наслаивался при добавлении новых данных.
Была предложена идея замены всего этого зоопарка XML-файлов на систему обмена сообщениями, поддерживающую pub/sub. Активно рассматривались три кандидатуры: NATS, Redis и ZeroMQ. Поскольку планировалось обмениваться не только метаданными, но и большим объёмом бинарных данных в реальном времени, во краю угла стала максимальная пропускная способность. По этой причине пришлось отсеять первые два кандидата, несмотря на их более высокоуровневый и удобный broker-based API (тесты показали, что NATS даёт фору Redis, но где-то на 20% проигрывает ZeroMQ).
Далее стал вопрос о способе синхронизации состояния между процессами. Логичной показалась следующая схема:
- Клиенты после подключения к серверу вычитывают его полное состояние.
- Далее при изменении состояния сервер публикует патчи (изменения), на которые подписаны клиенты.
- При получении патча клиент вызывает обработчики, соответствующие изменениям (событиям) в патче, а затем накладывает его на предыдущее состояние сервера.
В эту схему прекрасно укладывалось использование JSON Patch, что позволило не изобретать велосипед для генерации и наложения патчей. Таким образом, библиотека JSON, имеющая встроенную поддержку JSON Patch, стала идеальной основой для нашей библиотеки для синхронизации состояния.
Итак, после пары недель работы была написана небольшая библиотека, включавшая в себя следующие коммуникационные примитивы:
- Publisher — простая обёртка над PUB-сокетом.
- Subscriber — обёртка над SUB-сокетом, позволяющая асинхронно обрабатывать нотификации в выделенном потоке.
- Requester — обёртка над REQ-советом, позволяющая асинхронно отправить запрос и обработать ответ в выделенном потоке.
- Replier — обёртка над REP-сокетом, позволяющая обрабатывать входящие запросы в выделенном потоке.
На основе этих примитивов были реализованы Client и Server, позволяющие синхронизировать состояние, а также назначать callbacks на конкретные его изменения.
#include
#include
В результате выполнения этого кода будет:
Site added: forest (temperature: 51, pressure: 29)
Site added: lake (temperature: 49, pressure: 31)
Forecast: cloudy and rainy
Temperature in forest has changed: 51 → 50
Site removed: lake
Site added: desert (temperature: 55, pressure: 30)
Конечно, выбранный подход далёк от оптимальности с точки зрения производительности, поскольку щедро выделяет потоки под индивидуальные сокеты, вместо использования Epoll. Потому он будет плохо подходить для систем, требующих большого числа одновременных соединений. Будем надеяться, что для большинства случаев это некритично.
Итак появилась возможность сильно упростить большую часть межпроцессной коммуникации. Это будет не так просто сделать для legacy-кода, поскольку ручные проверки изменений сильно перемешаны с остальной функциональностью, а потому придётся резать «по-живому». С другой стороны, реализовывать синхронизацию для нового кода стало одним удовольствием.