Новый курс в Слёрме — Spark-инженер

Мы уже открыли запись на курс Spark-инженер, который стартует в сентябре. В этой статье расскажем, что это за специальность и чему будут учить в Слёрме.

f35c0703761fa214645eaa77669d4245.png

Кто такой Spark-инженер 

Инженер Spark — это специалист, который работает с Apache Spark — распределённой вычислительной платформой. Он может заниматься разработкой, оптимизацией и поддержкой приложений и систем на Apache Spark.

Для чего используется Apache Spark

Это мощная платформа для распределённых вычислений, где используется не одна машина, а много кластеров. С помощью Spark можно в режиме реального времени:  

  • обрабатывать большие объемы данных, причем параллельно;

  • делать SQL-запросы и агрегировать данные практически любых форм;

  • выполнять сложные аналитические вычисления и алгоритмы ML;

  • обрабатывать графовые данные.

Spark стал популярен благодаря высокой производительности и развитой экосистеме.

Чем Spark-инженер отличается от Data Engineer

Это две похожие роли, связанные с обработкой и анализом больших данных. Но spark-инженер специализируется, соответственно, на инструменте Spark, в то время как data-инежнер это более широкий профиль — он может работать с разными инструментами и технологиями. Оба этих специалиста могут быть заняты как в разработке систем анализа больших данных, так и в их эксплуатации.

Что должен знать Spark-инженер

Spark-инженеры владеют Scala, Python, SQL, Java или другими языками программирования для создания приложений на основе Spark. Spark-инженер работает со следующими инструментами:  

  • Spark SQL — это инструмент для работы с реляционными данными в Spark. Он позволяет создавать SQL-запросы для анализа данных в распределенной среде.

  • Spark Streaming — это инструмент для обработки данных в режиме реального времени. Он позволяет обрабатывать данные, поступающие в реальном времени, и анализировать их в режиме онлайн.

  • Spark MLlib — это набор инструментов для машинного обучения в Spark. Он включает в себя алгоритмы машинного обучения и библиотеки для их реализации.

  • GraphX — это библиотека для работы с графами в Spark. Она позволяет создавать графы и выполнять операции над ними, такие как поиск пути между двумя вершинами, нахождение максимального потока и т.д.

Также spark-инженеру нужно знать инструменты для развертывания и мониторинга Spark-приложений. Это могут быть: Apache Mesos, Hadoop и Kubernetes.

Кому стоит учиться на spark-инженера

Обучиться работе со Spark стоит тем, кто сейчас работает в роли:

  • ETL-инженера, который имеет опыт в перемещении и обработке данных, но недостаточно силен в программировании на SQL.

  • Data Warehouse аналитика, который имеет опыт работы с хранилищами данных, понимает SQL, но хочет разобраться в Shell-скриптинге и программировании.

  • Backend-разработчика, у которых есть опыт в программировании, но недостаточно глубокие знания в SQL и Shell-скриптинге.

  • DevOps-инженера, который понимает Shell-скриптинг, Kubernetes для деплоя, но не имеет знаний всего остального.

В широком смысле всем, кто вырос в разработке или DevOps, и кто хочет решать новые более сложные задачи для бизнеса.

Как стать Spark-инженером

Приходите в Слёрм на наш новый курс Spark-инженер, который стартует в сентябре. Набор уже начался.

Что будем делать на курсе

В курсе 82 часа теории и практики в виде лекций и онлай-встреч с ревью. Поработаем с рабочим кодом и скриптами для деплоя, а ещё:

  • Поговорим о типах баз данных, отличиях NoSQL-баз и специфике их применения.

  • Определим разные способы настройки Kafka для решения задач батчинга и стриминга, поработаем с компонентами.

  • Познакомимся с инструментами для представления данных заказчику. Научимся говорить с бизнесом на одном языке.

  • Найдем отличия между ETL и ELT и какие последствия для инфраструктуры несет внедрение того или иного подхода. Вы получите список критериев, по которым можно оценивать то или иное решение для перекладывания данных.

  • Узнаем классические подходы к задачам распределённого вычисления, сможем перечислить преимущества HDFS и начнём решать простые задачи по этому подходу.

  • Изучим практики применения Python к задачам по Data engineering.

В конце курса будет финальный проект, в основе которого — рабочий код, написанный своими руками.

Ознакомиться с программой и записать на курс можно на нашем сайте.

© Habrahabr.ru