[Перевод] Создание масштабируемых приложений при помощи Kafka и реактивного программирования Mahi Mullapudi
Введение
В современном цифровом мире критически важна возможность обрабатывать данные в режиме реального времени и масштабировать приложения. Для этого хорошо подходит Kafka — платформа для распределённой потоковой обработки событий, особенно, если сочетать её с реактивным программированием. В данной статье будет рассказано, как создавать реактивные приложения при помощи этого инструментария.
Разберём основы
Прежде, чем перейти к деталям, давайте изучим некоторые ключевые концепции.
Kafka: Apache Kafka — это платформа для распределенной обработки потоков событий, применяемая для создания конвейеров данных, работающих в режиме реального времени, а также потоковых приложений. Kafka оперативно обрабатывает огромные объёмы данных. При работе с Kafka приложения получают возможность производить и потреблять потоки записей (событий или сообщений).
Реактивное программирование: это такой подход к обработке ПО, при котором акцент делается на обработке асинхронных потоков данных и на распространении изменений. Такой подход способствует отзывчивости, надёжности и масштабированию приложений.
Масштабируемость: это способность системы справляться с нарастающими рабочими нагрузками или потенциал для увеличения системы, чтобы подстроиться под этот рост. В контексте приложения масштабируемость — это способность справляться с растущим количеством пользователей, объёмами данных или новыми транзакциями без ущерба для производительности.
Потоковая обработка данных в режиме реального времени: это технология обработки данных по мере их поступления. Благодаря этому приложение может сразу же реагировать на изменения или события. Потоковая обработка обычно противопоставляется пакетной; в последнем случае данные аккумулируются и обрабатываются партиями через заранее намеченные интервалы.
Расстановка: Почему Kafka сочетается с реактивным программированием?
Kafka и реактивное программирование хорошо дополняют друг друга. Kafka предоставляет надёжный механизм для обработки потоков данных, а реактивное программирование позволяет эффективно и оперативно обрабатывать эти потоки. В совокупности две эти технологии удобны для создания масштабируемых приложений, работающих в режиме реального времени.
Ключевые достоинства:
- Высокая пропускная способность: Kafka с минимальными задержками обрабатывать большие объёмы данных.
- Отказоустойчивость: распределённая архитектура Kafka гарантирует репликацию данных и отказоустойчивость системы.
- Масштабируемость: как Kafka, так и реактивное программирование рассчитаны на горизонтальное масштабирование. Таким образом, можно добавлять всё новые и новые узлы, чтобы справляться с возрастающими нагрузками.
- Асинхронная обработка: поскольку реактивное программирование по своей природе асинхронное, в этой парадигме гарантируются неблокирующие операции и улучшается отзывчивость.
Настройка Kafka
Чтобы приступить к программированию масштабируемых приложений при помощи Kafka, сначала нужно настроить кластер Kafka. Кластер состоит из множества брокеров Kafka, и каждый из них отвечает за обработку потоков данных.
Пошаговая настройка:
- Скачиваем и устанавливаем Kafka:
- Переходим на страницу для скачивания Apache Kafka и берём там новейшую версию.
- Извлекаем загруженные файлы и переходим в каталог с Kafka.
- Запускаем Zookeeper:
- При работе Kafka опирается на Zookeeper, распределённый координационный сервис. Запустим Zookeeper следующей командой:
sh bin/zookeeper-server-start.sh config/zookeeper.properties
- Запускаем брокер Kafka:
- Когда Zookeeper уже работает, запускаем брокер Kafka:
sh bin/kafka-server-start.sh config/server.properties
- Создаём топик:
- Данные в Kafka организованы в виде топиков. Создадим новый топик так:
sh bin/kafka-topics.sh --create --topic my-topic --bootstrap-server localhost:9092 --partitions 1 --replication-factor 1
- Начинаем производить и потреблять сообщения:
- Производим сообщения в топик:
sh bin/kafka-console-producer.sh --topic my-topic --bootstrap-server localhost:9092
- Потребляем сообщения из топика:
sh bin/kafka-console-consumer.sh --topic my-topic --bootstrap-server localhost:9092 --from-beginning
Знакомство с реактивным программированием
Концепции реактивного программирования:
- Асинхронность: операции являются неблокирующими, то есть, ни одна операция не должна дожидаться завершения другой операции.
- Движущая роль событий: код реагирует на события — то есть, на действия пользователя или на изменения данных.
- Наблюдаемые потоки: данные понимаются как потоки, которые можно наблюдать и на которые можно реагировать.
Популярные библиотеки:
- Project Reactor: библиотека для реактивного программирования на Java, предоставляет мощный API для сборки асинхронных приложений, управляемых через события.
- RxJava: ещё одна популярная библиотека для реактивного программирования на Java, вдохновлённая проектом Reactive Extensions.
Простой реактивный пример
Рассмотрим простейший пример реактивного программирования, в котором используется Project Reactor.
Java
import reactor.core.publisher.Flux;
public class ReactiveExample {
public static void main(String[] args) {
Flux dataStream = Flux.just("Hello", "Reactive", "World");
dataStream
.map(String::toUpperCase)
.subscribe(System.out::println);
}
}
Здесь Flux — это поток данных. Функция map преобразует каждый из элементов, а subscribe потребляет данные, выводя их в консоль.
Интеграция Kafka с реактивным программированием
Чтобы создать масштабируемое приложение, нужно интегрировать Kafka со средствами реактивного программирования. Для этого воспользуемся реактивным клиентом Kafka, который будет производить и потреблять сообщения.
Производство сообщений для Kafka
При помощи библиотеки reactor-kafka можно производить сообщения для Kafka, построив работу по реактивному принципу.
Зависимости:
Добавим следующие зависимости в файл pom.xml (для Maven):
Java
io.projectreactor.kafka
reactor-kafka
1.3.5
org.apache.kafka
kafka-clients
2.7.0
Реактивный продьюсер Kafka:
Java
import org.apache.kafka.clients.producer.ProducerConfig;
import org.apache.kafka.common.serialization.StringSerializer;
import reactor.core.publisher.Flux;
import reactor.kafka.sender.KafkaSender;
import reactor.kafka.sender.SenderOptions;
import reactor.kafka.sender.SenderRecord;
import java.util.HashMap;
import java.util.Map;
public class ReactiveKafkaProducer {
public static void main(String[] args) {
Map props = new HashMap<>();
props.put(ProducerConfig.BOOTSTRAP_SERVERS_CONFIG, "localhost:9092");
props.put(ProducerConfig.KEY_SERIALIZER_CLASS_CONFIG, StringSerializer.class);
props.put(ProducerConfig.VALUE_SERIALIZER_CLASS_CONFIG, StringSerializer.class);
SenderOptions senderOptions = SenderOptions.create(props);
KafkaSender sender = KafkaSender.create(senderOptions);
Flux> outboundFlux = Flux.range(1, 10)
.map(i -> SenderRecord.create(new ProducerRecord<>("my-topic", "key" + i, "value" + i), "correlationId" + i));
sender.send(outboundFlux)
.doOnError(e -> System.err.println("Send failed: " + e))
.doOnNext(r -> System.out.println("Message sent: " + r.correlationMetadata()))
.subscribe();
}
}
В этом примере мы настраиваем продьюсер Kafka при помощи реактивного программирования. Он отправляет десять сообщений в топик my-topic, занося в лог, как окончилась каждая операция — успешно или неуспешно.
Потребление сообщений из Kafka
Аналогично, можно реактивно потреблять сообщения из Kafka.
Реактивный потребитель Kafka:
Java
import org.apache.kafka.clients.consumer.ConsumerConfig;
import org.apache.kafka.common.serialization.StringDeserializer;
import reactor.kafka.receiver.KafkaReceiver;
import reactor.kafka.receiver.ReceiverOptions;
import java.util.Collections;
import java.util.HashMap;
import java.util.Map;
public class ReactiveKafkaConsumer {
public static void main(String[] args) {
Map props = new HashMap<>();
props.put(ConsumerConfig.BOOTSTRAP_SERVERS_CONFIG, "localhost:9092");
props.put(ConsumerConfig.GROUP_ID_CONFIG, "reactive-consumer-group");
props.put(ConsumerConfig.KEY_DESERIALIZER_CLASS_CONFIG, StringDeserializer.class);
props.put(ConsumerConfig.VALUE_DESERIALIZER_CLASS_CONFIG, StringDeserializer.class);
ReceiverOptions receiverOptions = ReceiverOptions.create(props)
.subscription(Collections.singleton("my-topic"));
KafkaReceiver receiver = KafkaReceiver.create(receiverOptions);
receiver.receive()
.doOnNext(record -> System.out.println("Received message: " + record.value()))
.subscribe();
}
}
В данном примере потребитель подписывается на my-topic и выводит в консоль все принятые сообщения.
Создаём масштабируемое приложение: разбор примера
Чтобы проиллюстрировать, как можно использовать Kafka в сочетании с реактивным программированием, рассмотрим практический пример: напишем систему, которая позволяет в режиме реального времени отслеживать движение целого парка грузовичков. Система должна обрабатывать данные о движении машин и показывать, где находится в данный момент каждая из них.
Компоненты системы
- Сенсоры грузовиков: датчики, установленные в автомобилях и отправляющие в систему данные о местоположении и обновлении статуса.
- Брокер Kafka: собирает информацию с датчиков и отправляет её в потоковом режиме.
- Реактивные микросервисы: обрабатывают и анализируют данные.
- Приложение для визуализации данных: демонстрирует пользователю данные, обновляемые в режиме реального времени.
Пошаговая реализация:
1. Сенсоры грузовиков: сымитируем датчики, отправляющие информацию в Kafka.
Java
import org.apache.kafka.clients.producer.ProducerConfig;
import org.apache.kafka.common.serialization.StringSerializer;
import reactor.core.publisher.Flux;
import reactor.kafka.sender.KafkaSender;
import reactor.kafka.sender.SenderOptions;
import reactor.kafka.sender.SenderRecord;
import java.util.HashMap;
import java.util.Map;
import java.util.Random;
public class TruckSensorSimulator {
public static void main(String[] args) {
Map props = new HashMap<>();
props.put(Producer
Config.BOOTSTRAP_SERVERS_CONFIG, "localhost:9092");
props.put(ProducerConfig.KEY_SERIALIZER_CLASS_CONFIG, StringSerializer.class);
props.put(ProducerConfig.VALUE_SERIALIZER_CLASS_CONFIG, StringSerializer.class);
SenderOptions senderOptions = SenderOptions.create(props);
KafkaSender sender = KafkaSender.create(senderOptions);
Random random = new Random();
Flux> sensorDataFlux = Flux.interval(Duration.ofSeconds(1))
.map(tick -> {
String truckId = "truck-" + random.nextInt(10);
String location = "loc-" + random.nextInt(100);
String status = "status-" + random.nextInt(3);
String value = String.format("%s,%s,%s", truckId, location, status);
return SenderRecord.create(new ProducerRecord<>("truck-data", truckId, value), "correlationId" + tick);
});
sender.send(sensorDataFlux)
.doOnError(e -> System.err.println("Send failed: " + e))
.doOnNext(r -> System.out.println("Message sent: " + r.correlationMetadata()))
.subscribe();
}
}
2. Брокер Kafka: подготовим и запустим Kafka так, как описано выше.
3. Реактивные микросервисы: будем обрабатывать данные из Kafka и анализировать их в режиме реального времени.
Java
import org.apache.kafka.clients.consumer.ConsumerConfig;
import org.apache.kafka.common.serialization.StringDeserializer;
import reactor.kafka.receiver.KafkaReceiver;
import reactor.kafka.receiver.ReceiverOptions;
import java.util.Collections;
import java.util.HashMap;
import java.util.Map;
public class TruckDataProcessor {
public static void main(String[] args) {
Map props = new HashMap<>();
props.put(ConsumerConfig.BOOTSTRAP_SERVERS_CONFIG, "localhost:9092");
props.put(ConsumerConfig.GROUP_ID_CONFIG, "truck-data-processor-group");
props.put(ConsumerConfig.KEY_DESERIALIZER_CLASS_CONFIG, StringDeserializer.class);
props.put(ConsumerConfig.VALUE_DESERIALIZER_CLASS_CONFIG, StringDeserializer.class);
ReceiverOptions receiverOptions = ReceiverOptions.create(props)
.subscription(Collections.singleton("truck-data"));
KafkaReceiver receiver = KafkaReceiver.create(receiverOptions);
receiver.receive()
.doOnNext(record -> {
String[] data = record.value().split(",");
String truckId = data[0];
String location = data[1];
String status = data[2];
// Process and analyze the data (e.g., updating a database or triggering alerts)
System.out.println("Processed data for truck: " + truckId + ", location: " + location + ", status: " + status);
})
.subscribe();
}
}
4. Приложение для визуализации данных: в режиме реального времени показываем обработанные данные пользователю.
Чтобы создать такое приложение, можно воспользоваться веб-фреймворком, поддерживающим реактивное программирование, например, Spring Boot с WebFlux. Приложение подпишется на конечную точку WebSocket, чтобы получать обновления в режиме реального времени.
Настройка Spring Boot WebFlux:
Зависимости:
Добавим следующие зависимости в файл pom.xml (для Maven):
Java
org.springframework.boot
spring-boot-starter-webflux
org.springframework.boot
spring-boot-starter-websocket
org.springframework.kafka
spring-kafka
org.apache.kafka
kafka-clients
2.7.0
Конфигурация WebFlux:
Java
import org.springframework.context.annotation.Configuration;
import org.springframework.web.reactive.config.EnableWebFlux;
import org.springframework.web.reactive.config.WebFluxConfigurer;
@Configuration
@EnableWebFlux
public class WebFluxConfig implements WebFluxConfigurer {
// WebFlux configuration can be added here if needed
}
Конфигурация WebSocket:
Java
import org.springframework.context.annotation.Configuration;
import org.springframework.web.socket.config.annotation.EnableWebSocket;
import org.springframework.web.socket.config.annotation.WebSocketConfigurer;
import org.springframework.web.socket.config.annotation.WebSocketHandlerRegistry;
@Configuration
@EnableWebSocket
public class WebSocketConfig implements WebSocketConfigurer {
@Override
public void registerWebSocketHandlers(WebSocketHandlerRegistry registry) {
registry.addHandler(new TruckDataWebSocketHandler(), "/truck-data").setAllowedOrigins("*");
}
}
WebSocket Handler:
Java
import org.springframework.web.reactive.socket.WebSocketHandler;
import org.springframework.web.reactive.socket.WebSocketSession;
import org.springframework.web.reactive.socket.server.support.WebSocketHandlerAdapter;
import reactor.core.publisher.Mono;
public class TruckDataWebSocketHandler extends WebSocketHandlerAdapter implements WebSocketHandler {
@Override
public Mono handle(WebSocketSession session) {
// Simulate sending real-time updates to the client
return session.send(
session.receive()
.map(msg -> session.textMessage("Received: " + msg.getPayloadAsText()))
.doOnError(e -> System.err.println("WebSocket error: " + e))
);
}
}
Reactive Kafka Consumer Service:
Java
import org.apache.kafka.clients.consumer.ConsumerConfig;
import org.apache.kafka.common.serialization.StringDeserializer;
import org.springframework.kafka.annotation.KafkaListener;
import org.springframework.kafka.core.ConsumerFactory;
import org.springframework.kafka.core.DefaultKafkaConsumerFactory;
import org.springframework.kafka.listener.ConcurrentMessageListenerContainer;
import org.springframework.kafka.listener.config.ContainerProperties;
import org.springframework.stereotype.Service;
import reactor.core.publisher.Flux;
import reactor.core.publisher.Sinks;
import java.util.HashMap;
import java.util.Map;
@Service
public class TruckDataService {
private final Sinks.Many sink = Sinks.many().multicast().onBackpressureBuffer();
@KafkaListener(topics = "truck-data", groupId = "truck-data-processor-group")
public void listen(String message) {
sink.tryEmitNext(message);
}
public Flux getTruckDataStream() {
return sink.asFlux();
}
public ConsumerFactory consumerFactory() {
Map props = new HashMap<>();
props.put(ConsumerConfig.BOOTSTRAP_SERVERS_CONFIG, "localhost:9092");
props.put(ConsumerConfig.GROUP_ID_CONFIG, "truck-data-processor-group");
props.put(ConsumerConfig.KEY_DESERIALIZER_CLASS_CONFIG, StringDeserializer.class);
props.put(ConsumerConfig.VALUE_DESERIALIZER_CLASS_CONFIG, StringDeserializer.class);
return new DefaultKafkaConsumerFactory<>(props);
}
public ConcurrentMessageListenerContainer kafkaListenerContainer() {
ContainerProperties containerProps = new ContainerProperties("truck-data");
return new ConcurrentMessageListenerContainer<>(consumerFactory(), containerProps);
}
}
REST-контроллер:
Java
import org.springframework.beans.factory.annotation.Autowired;
import org.springframework.web.bind.annotation.GetMapping;
import org.springframework.web.bind.annotation.RestController;
import reactor.core.publisher.Flux;
@RestController
public class TruckDataController {
@Autowired
private TruckDataService truckDataService;
@GetMapping("/truck-data")
public Flux getTruckData() {
return truckDataService.getTruckDataStream();
}
}
При такой конфигурации данные о передвижении машин в режиме реального времени отправляются на конечную точку WebSocket, к которой может подключаться приложение для визуализации данных. В нём мы и увидим обновления.
Заключение
Сочетая Kafka и реактивное программирование, можно создавать хорошо масштабируемые приложения, способные обрабатывать поступающие в режиме реального времени потоки данных и реагировать на них. Kafka обеспечивает надёжный механизм для обработки больших объёмов данных, а реактивное программирование гарантирует, что приложение будет оставаться отзывчивым, устойчивым и эффективным.
В этой статье было рассказано, как подготовить Kafka к работе, была приведена базовая информация о реактивном программировании, а также было объяснено, как интегрировать два этих инструмента и создать мониторинговую систему для работы в режиме реального времени. Если вы пишете приложение для мониторинга, обработки данных или других задач, решаемых в режиме реального времени, то именно Kafka и реактивное программирование помогут вам преуспеть в этом.
Освоив эти технологии, вы сможете создавать приложения, которые будут не только хорошо масштабироваться по мере роста запросов, но и позволят получать данные в режиме реального времени, а также обеспечат отзывчивость, которая нужна пользователям, работающим в современной динамичной цифровой среде.
P.S Обращаем ваше внимание на то, что у нас на сайте проходит распродажа.