[Из песочницы] «Да, они существуют!» Чем занимаются и сколько зарабатывают Data Science-специалисты в Казахстане?

Дмитрий Казаков, Data Analytics Team Lead в Kolesa Group, делится инсайтами из первого казахстанского опроса специалистов по работе с данными.

Помните популярную фразу о том, что Big Data больше всего напоминает подростковый секс — все о нем говорят, но никто не знает, есть ли он на самом деле. То же самое можно было сказать и о рынке специалистов по работе с данными (в Казахстане) — хайп есть, а кто за ним стоит (и есть ли там вообще хоть кто-то), не было до конца понятно — ни эйчарам, ни менеджерам, ни самим дата-сайентистам.

Мы провели исследование, в рамках которого опросили более 300 специалистов об их зарплатах, функциях, скиллах, инструментах и много еще о чем.

Спойлер: да, они точно существуют, но все не так однозначно.

Приятный инсайт. Во-первых, специалистов по работе с данными больше чем мы ожидали. Нам удалось опросить 300 человек, среди которых есть не только product-, marketing- и BI-аналитики, но и ML-, DWH-инженеры, что особенно порадовало. В самой большой группе оказались все те, кто называет себя дата-сайентистами — это 36% опрошенных. Покрывает это запрос рынка или нет, сказать сложно, потому что сам рынок только формируется.

he7ef9uk2dxwguicivimfejnp24.jpeg

Смущает распределение уровней должности — тимлидов и руководителей почти столько же, сколько джунов. Причин тому может быть несколько. Например, большое количество маленьких команд по 2–3 человека, в которых руководителем может быть специалист уровня миддла или сениора.

8a3ua2elvxmmpmh4svi-xahncow.jpeg

Еще одной причиной может быть царящий пока на рынке хаос по части стандартов в распределении ролей и функционала. Тимлидами порой назначают тех, кто просто работает на год-два дольше других, без привязки к уровню скиллов и знаний. Мы видим это и в распределении функций по должностям — 38% руководителей и тимлидов занимаются предобработкой и еще 33% базовым стат.анализом.

tt8r6wpx9cmkw3wslx3ckaecdlm.jpeg

1pnjtam6tfzuohwmsmfzf28cfca.jpeg

Здесь мы попросили респондентов субъективно оценить уровень аналитики в их компаниях. Если присмотреться, можно увидеть, что 10% респондентов, которые работают в отделах аналитики из 2–3 человек, считают что у них «продвинутый уровень».

А что такое «продвинутый уровень»? BI-система работает отлично. Есть DWH и Big Data. Регулярно проводятся A/B-тесты. Есть работающие системы ML и DS в production. Решения принимаются только по данным. Отдел работы с данными и Data Science — один из ключевых в компании.

Всего перечисленного практически невозможно добиться отделом из 2–3 человек. Считаю, что такой результат опроса — это небольшая болезнь роста — ребятам пока не с кем себя сравнивать, чтобы определить свой уровень более объективно.

-dvbld-6txzh6eokxg2vfx0dica.jpeg

c5lrlkst4ozqsqzyskp_0l77ngw.jpeg

Ожидаемо, больше всего времени специалисты по работе с данными тратят не на супер сложную математику или инженерию, а на предобработку, выгрузку, очистку данных. В каждой специализации мы видим предобработку в топ-3. А вот сложные вещи типа разработки ML-моделей или работы с Big Data, в топ-3 мы видим крайне редко — только у ML- и DWH-инженеров.

cutxvatnzakyifphujlhi17fr_y.jpeg

Есть и парочка грустных инсайтов. 40% задач специалисты ставят себе самостоятельно. В Казахстане пока только топовые компании-единороги распробовали преимущества работы с большими данными и научились делать это грамотно. Они транслируют на рынок, что Big Data и Machine Learning — это круто, а второй эшелон тянется следом, но далеко не всегда понимает, как устроена работа с данными. Поэтому мы видим, что задачи специалисты себе ставят сами, а бизнес не всегда знает, чего хочет.

c4tvelqtm0vpyo1dwznvamlzviy.jpeg

Удивило, что 20% специалистов вообще не знают, есть ли в их компании Data Warehouse. Да, и с системами управления базами данных не все так хорошо — 41% используют MySQL, а еще 34% — PostgreSQL. О чем это может говорить? Они работают скорее со small data.

9x0yhezboazjebmu6j_yp-ldcmw.jpeg

В вопросе про системы хранения мы снова видим MySQL и даже (!) Excel. Но это может говорить, например, о том, что у большинства компаний просто-напросто еще нет запроса на работу с большими данными.

jjtcgnhaadjrm9x3jjsvi5cwbay.jpeg

Здесь все снова неоднозначно. В целом, зарплаты оказались чуть ниже, чем я ожидал. Лично мне сложно представить ML-инженера, который готов работать за 200 тысяч тенге — наверное, это стажер. Либо, компетенции у таких специалистов совсем слабые, либо компаниям пока сложно адекватно оценить работу Data Science. Но возможно это также говорит о том, что рынок пока в самом начале своего взросления. И со временем уровень зарплат установится на более адекватном уровне.

© Habrahabr.ru