Новый курс в Слёрме — Spark-инженер
Мы уже открыли запись на курс Spark-инженер, который стартует в сентябре. В этой статье расскажем, что это за специальность и чему будут учить в Слёрме.
Кто такой Spark-инженер
Инженер Spark — это специалист, который работает с Apache Spark — распределённой вычислительной платформой. Он может заниматься разработкой, оптимизацией и поддержкой приложений и систем на Apache Spark.
Для чего используется Apache Spark
Это мощная платформа для распределённых вычислений, где используется не одна машина, а много кластеров. С помощью Spark можно в режиме реального времени:
обрабатывать большие объемы данных, причем параллельно;
делать SQL-запросы и агрегировать данные практически любых форм;
выполнять сложные аналитические вычисления и алгоритмы ML;
обрабатывать графовые данные.
Spark стал популярен благодаря высокой производительности и развитой экосистеме.
Чем Spark-инженер отличается от Data Engineer
Это две похожие роли, связанные с обработкой и анализом больших данных. Но spark-инженер специализируется, соответственно, на инструменте Spark, в то время как data-инежнер это более широкий профиль — он может работать с разными инструментами и технологиями. Оба этих специалиста могут быть заняты как в разработке систем анализа больших данных, так и в их эксплуатации.
Что должен знать Spark-инженер
Spark-инженеры владеют Scala, Python, SQL, Java или другими языками программирования для создания приложений на основе Spark. Spark-инженер работает со следующими инструментами:
Spark SQL — это инструмент для работы с реляционными данными в Spark. Он позволяет создавать SQL-запросы для анализа данных в распределенной среде.
Spark Streaming — это инструмент для обработки данных в режиме реального времени. Он позволяет обрабатывать данные, поступающие в реальном времени, и анализировать их в режиме онлайн.
Spark MLlib — это набор инструментов для машинного обучения в Spark. Он включает в себя алгоритмы машинного обучения и библиотеки для их реализации.
GraphX — это библиотека для работы с графами в Spark. Она позволяет создавать графы и выполнять операции над ними, такие как поиск пути между двумя вершинами, нахождение максимального потока и т.д.
Также spark-инженеру нужно знать инструменты для развертывания и мониторинга Spark-приложений. Это могут быть: Apache Mesos, Hadoop и Kubernetes.
Кому стоит учиться на spark-инженера
Обучиться работе со Spark стоит тем, кто сейчас работает в роли:
ETL-инженера, который имеет опыт в перемещении и обработке данных, но недостаточно силен в программировании на SQL.
Data Warehouse аналитика, который имеет опыт работы с хранилищами данных, понимает SQL, но хочет разобраться в Shell-скриптинге и программировании.
Backend-разработчика, у которых есть опыт в программировании, но недостаточно глубокие знания в SQL и Shell-скриптинге.
DevOps-инженера, который понимает Shell-скриптинг, Kubernetes для деплоя, но не имеет знаний всего остального.
В широком смысле всем, кто вырос в разработке или DevOps, и кто хочет решать новые более сложные задачи для бизнеса.
Как стать Spark-инженером
Приходите в Слёрм на наш новый курс Spark-инженер, который стартует в сентябре. Набор уже начался.
Что будем делать на курсе
В курсе 82 часа теории и практики в виде лекций и онлай-встреч с ревью. Поработаем с рабочим кодом и скриптами для деплоя, а ещё:
Поговорим о типах баз данных, отличиях NoSQL-баз и специфике их применения.
Определим разные способы настройки Kafka для решения задач батчинга и стриминга, поработаем с компонентами.
Познакомимся с инструментами для представления данных заказчику. Научимся говорить с бизнесом на одном языке.
Найдем отличия между ETL и ELT и какие последствия для инфраструктуры несет внедрение того или иного подхода. Вы получите список критериев, по которым можно оценивать то или иное решение для перекладывания данных.
Узнаем классические подходы к задачам распределённого вычисления, сможем перечислить преимущества HDFS и начнём решать простые задачи по этому подходу.
Изучим практики применения Python к задачам по Data engineering.
В конце курса будет финальный проект, в основе которого — рабочий код, написанный своими руками.
Ознакомиться с программой и записать на курс можно на нашем сайте.