SmartData 2020: конференция про data engineering

d3tqeaurygjjxkhewyxeiwfydes.jpeg

Если ваша должность — data engineer, то вы могли сталкиваться с обидным информационным перекосом. Тему data science освещают активно, по ней много полезных материалов. А вы работаете в смежной области, где тоже возникает много важных вопросов, но об этих вопросах говорят заметно меньше.

Мы решили, что стоит закрыть этот пробел, поэтому 9–12 декабря проведём конференцию SmartData. Она рассчитана на дата-инженеров и не только: разработчики и data scientists, которые сталкиваются с задачами дата-инженерии или хотят перейти в эту сферу, тоже извлекут пользу.

Кто-то вспомнит, что конференция с таким названием уже была, но тогда её формат отличался. Под катом написали и о том, почему она переродилась, и о том, чего именно ждать от новой.


Предыстория

Старожилы Хабра могут помнить, как в 2017-м мы представили «конференцию по большим и умным данным SmartData», а в 2018-м отменили вторую SmartData. И про перспективы возрождения тогда написали: «сейчас не станем ничего обещать, но думаем, как можно сделать лучше». Спустя два года сообщаем: подумали!

Когда мы впервые запускали конференцию, пытались объять всё сразу и сделать мероприятие для всех, кто работает с данными. Но оказалось, что такой универсальный формат плохо работает, разным специалистам нужно слишком разное. И после отмены второй конференции, где мы собирались уделить много внимания data science, получили фидбек вроде такого:

umjsjfcb__dc-ked-ktdsb-xmm0.jpeg

Теперь вместо того, чтобы гнаться за двумя зайцами, решили сосредоточиться на конкретном формате, который недополучает внимания. Как раз таком, какой обозначен в этом комментарии: «про то, как весь зоопарк технологий запускать и тюнить, какие есть проблемы, с чем лучше работать в каких-то определённых задачах…»


Темы

Что всё это значит на практике, о каких вещах можно будет услышать на SmartData 2020? Программа пока что в процессе формирования, но очерчен круг тем, которые мы считаем интересными для конференции. И по этому списку можно понять, чего в принципе стоит ждать:

Streaming
— Flink
— Spark
— Kafka

СУБД и хранилища для больших данных
Использование классических реляционных, колоночных, noSQL, SMP/MPP-хранилищ для построения DWH:
— Hive, Impala, Presto, Vertica, ClickHouse, Cassandra
— Teradata, Redshift, GreenPlum, exadata
— MSSQL, PostgreSQL
— MongoDB, DynamoDB
— S3, ADLS, GCS, HDFS

Архитектура DWH
— Моделирование данных
— Примеры построения корпоративных хранилищ данных
— Оперативная аналитика
— Ad-hoc reporting
— Hadoop

Data governance
— Data security
— Data quality
— Metadata и catalog management
— Master data management
— Миграция данных

Технологии построения ETL
— Spark
— Hadoop MapReduce
— Sqoop
— Performance analysis and optimization
— и так далее

Оркестрация и MLOps
— Airflow, NiFi, Luigi, Azkaban, Oozie etc
— MLflow
— и так далее

Другое
— Коробочные облачные решения
— Дата-инженерия для тех, кто не data engineer
— CI/CD для пайплайнов данных
— Тестирование

bz5lkj7udlsyzdpubfobajkozfs.jpeg
Виталий Худобахшов из программного комитета SmartData


Формат

Как и другие наши конференции этого сезона, SmartData пройдёт в онлайне — так что подходить на стойку регистрации за бейджиком в этот раз не придётся. А как всё будет выглядеть?


  • Понятно, что доклады важны, но для нас «онлайн-конференция» не означает «просто видеопоток». Это и чаты для обсуждения конкретных докладов, и видеосозвон после каждого доклада с возможностью задать вопрос спикеру, и активности от партнёров, и общий конференционный чат. Очень рекомендуем всем этим пользоваться: тогда ощущаешь, что ты не просто смотришь видео, а участвуешь в событии.


  • Чтобы зрителям было как можно удобнее, для проведения конференций мы используем не чужое софтовое решение, а разработали своё собственное. О нём уже писали на Хабре подробно.


  • Расписание отличается от того, к которому все привыкли по офлайн-конференциям. В офлайне на пару дней выпадаешь из обычной жизни целиком. В онлайне иначе: конференция растянется на четыре дня, но будет идти по 3–4 часа в день. Это позволяет не выпадать полностью из обычной жизни, совмещая конференцию и обычную жизнь.


  • Но советуем донести до работодателя, что если на офлайн-конференцию он отпускал вас с работы, то и в онлайне эти 3–4 часа в день вам действительно нужны: смотреть хардкорные технические доклады всегда требует сосредоточения. Впрочем, если из-за важного созвона не получилось посмотреть интересный доклад «вживую», он сразу же доступен в записи (с офлайн-конференциями так не работает). Если немного опоздал к началу доклада, то с помощью ускоренного воспроизведения записи можно даже успеть «догнать» других зрителей, чтобы задавать вопросы спикеру вместе со всеми!



Call to action

Что в итоге? Есть три главных вещи:


  1. Если конференция вас заинтересовала — стоит перейти на её сайт. Там всегда размещается наиболее актуальная информация (например, будет постепенно появляться список докладов), и там же можно приобрести билет.


  2. Если вы ощущаете, что хотели бы сами выступить с докладом — сейчас самое время подавать заявку, это делается тоже на сайте.


  3. А если для вас важны и другие области IT, обратите внимание: у нас есть билеты «full pass», дающие доступ и к SmartData, и к 7 другим нашим конференциям нового сезона. Подробнее об этом можно узнать на отдельном сайте.


Увидимся на SmartData!

hnmib9fuyvjfrooetzeply5swzq.jpeg

© Habrahabr.ru