Задачник для проработки бизнес-мышления начинающим аналитиком данных

Зачем нам (аналитикам данных) бинес-мышление? Чтобы:

  • понимать потребности бизнес-пользователей и эффективно доносить до них результаты анализа данных;

  • понимать цели и задачи бизнеса и определять, как анализ данных может помочь их достичь;

  • прогнозировать последствия своих решений и, как следствие, давать более обоснованные рекомендации.

Складывается впечатление, что бизнес-мышление нельзя наработать в отрыве от бизнеса… или всё-таки можно?  

Меня зовут Елена Эльзессер, я работаю с данными почти 20 лет. Из них семь набирала и растила джунов, три — наставник в Практикуме на курсе «Аналитик данных». За это время у меня выработалось несколько мыслеупражнений, которые помогают прокачивать бизнес-мышление. Понимая всю сложность обучения и возможную интровертность, торжественно обещаю не говорить о хакатонах, пет-проектах, общении и любых других дополнительных ресурсах. Только вы и ваш проект, даже гугл по желанию. Заинтриговала?

a9a1d7cb91da7f56f778e4e7a7e2078b.png

Для старта важно

  • Нам нужна какая-то задача, и это может быть любой ваш учебный проект или даже просто набор данных, про которые вы будете думать.

  • Пожалуйста, забудьте на время об инструментах. Если вы только начинаете свой путь, скорей всего вы будете думать: «А как это написать кодом?», а нам такие стопперы на пути мысли не нужны. 

  • Надо быть готовым к тому, что у задачи нет одного-единственного верного решения. Знаю, что поначалу это сильно смущает, вот бонусом будем ещё и это прорабатывать.

  • Неверный ответ лучше, чем никакого. Неверный можно проработать, понять, где и в чём ошибся, чего не хватает именно вам. С «ничего» ничего не сделаешь. Сознательно предлагаю рассмотреть тему банковского кредитования, про которую ничего не знаю (лайт-пользователь, наверное, можно сказать), чтобы мне было так же тяжело весело, как и вам.

  • Не смотрите на данные. Максимум df.head() или открыть эксельку. Таким образом вы получите гипотезы на основании бизнеса и только потом проверите их на данных, а не наоборот — «я тут что-то поизучал, куда бы это приткнуть», или ещё хуже —«написал df.describe() и не знаю, что дальше».

Связываем данные и бизнес-процессы

Как вы думаете, откуда взялись данные и через какие изменения прошли? Мы, скорее всего, не узнаем настоящего ответа, но он нам сейчас и не нужен, будем фантазировать. 

  1. Предлагаю начинать с самого первого источника данных. Например, для датасета о кредитах самым первым источником данных является человек, который получал кредит. Как он мог оставить о себе информацию: сайт, мобильное приложение,   заполненная в банке анкета самостоятельно и со слов оператором, данные из соцсети (нажал на рекламу «заявка», где сразу подтягиваются данные из профиля), работодатель когда-то делал зарплатную карту и подавал сведения,   регистрация через Госуслуги. 

Какие ещё источники могут быть и какие вопросы можно себе задать:

  • Пока мы придумывали, где человек мог оставить информацию, мы заодно придумали часть дополнительных источников. Какие ещё данные мы могли бы взять из каждого из источников? В качестве примера: локация и модель смартфона из мобильного приложения; сектор экономики, размер, организационно-правовая форма работодателя. 

  • Через кого внутри нашего банка могли пройти эти данные для дополнения и уточнения? Колл-центр что-то спрашивает, мы требуем бумажки «с синей печатью» через сайт или ножками в банк, у нас целая экосистема, в рамках которой мы можем что-то ещё знать о нашем пользователе.

  • Могли ли выйти данные за пределы банка и вернуться к нам в другом виде? Кто ещё существует в экосистеме банковского бизнеса? Мне с ходу придумалось только БКИ (бюро кредитных историй), уверена, вам придумается/нагуглится больше.

  • Что ещё существует в мире для описания человека?

  1. Следующий этап. Проговорите, могут ли быть ошибки, и какие, в вашем датасете. Учитывайте контекст придуманных вами каналов источников данных. Нет задачи угадать или точно знать, наша задача — генерировать гипотезы и получать опыт.  

Если вы уже познакомились с базами данных, то для вас есть ещё задачка под звездочкой: как ваш датасет мог выглядеть в виде таблиц баз данных?  

  1. После этих мысленных упражнений мы можем получить несколько бонусов:

  • идеи, что стоит проверить в рамках предобработки данных;  

  • рекомендации бизнесу о дополнительных источниках данных, о возможных ограничениях, о возможностях для повышения качества данных;

  • возможно, уже начнём понимать боль бизнес-заказчика из уже, пожалуй, хрестоматийного примера:

Аналитик, посчитай, пожалуйста, количество покупателей на вчерашний день.
А какую дату брать: add_to_cart, order_dt, deliver_dt?
Эээ?

Связываем данные и бизнес

Как вы думаете, кто может быть заказчиком вашего проекта?  

Если заказчик указан, придумайте ещё (бонусом поднимаем и проактивность). Например, у меня есть данные, я могу их исследовать и обладать какой-то информацией, кому потенциально может быть это интересно?

Можно ещё сделать следующий шаг и задавать себе вопрос:, а какие хорошие последствия принесёт моя информация (какую пользу бизнесу я наношу)?

Фантазируем:

  • Продакту сайта или мобильного приложения, если мы нашли особенности в заполнении заявки через сайт или мобильное приложение. 

Придумываю: все, кто пришел с сайта, имеют 0 детей. Возможно, мы по дефолту раздаём это значение и нет возможности для изменения этого признака. Как-то это неаккуратно, а банк не может себе позволить неаккуратность. Рядом у нас написано, что за подачу недостоверных данных будет вам плохо … и кто-то очень мнительный закрывает наш сайт и идёт в другой банк. Я, конечно, нагнетаю, но, возможно, здесь есть доля правды :)

  • Дата-инженеру — об ошибках в данных, которые потенциально могут быть исправлены. В неисправленном виде наносить вред не только нам. Например, мы обнаружили, что пропущенные значения имеют как вид nan, так и число -9999. А данные эти отображаются суммой на дашборде, упс?

  • Отделу маркетинга о портрете «хорошего» и «плохого» пользователя нашими кредитами, о неохваченной аудитории (нет в наших данных).

  • Клиентскому отделу — об особенностях «плохого» пользователя. Вдруг потенциально мы можем его починить. Например, смской сразу после прихода заработной платы (механизм починки, конечно, не наша епархия, но почему бы не поучаствовать хотя бы мысленно).

Продолжать можно долго. Чем больше сможете, тем лучше (и не забудьте о возможных внешних заказчиках).

Если вы поклонник геймификации, то это упражнение можно превратить в игру по принципу теста на дивергентное мышление. Нарезать карточки со всеми возможными отделами в компании, разными видами организаций, и карточки с описанием датасетов. Вытягиваем случайным образом по одной и придумываем, что можно выжать из этих данных для конкретного заказчика.

Генерируем гипотезы предобработки из своих знаний об этом мире

Смотрим последовательно на каждый признак и пытаемся ответить на вопросы:

  • Что я об этом знаю? Например, наш банк даёт кредиты только совершеннолетним. А мужчин и женщин в России примерно 50/50.

  • Что ожидаю увидеть, например, на гистограмме? Доходы должны быть распределены равномерно. У меня, видимо, розовые очки, я, конечно, ошибаюсь, но пока этого не знаю. Это нормально, мы дальше это поборем. Главное, это нас убережёт от простого написания .hist().

  • Буду ли я что-то делать (что?), если мои знания и данные не совпадут? Например, я обращусь к информации о наших кредитных продуктах, возможно, есть ограничения по доходу. Или найду внешнюю информацию о распределении доходов у населения изучаемой страны. 

Генерируем гипотезы предобработки через самостоятельное тестирование

Если возможно на ваших данных (конкретный банк, сервис и т.п.), то попробуйте выступить в роли пользователя. Как минимум, появятся идеи возможных проблем в данных. Если данные старые, возможно, копии сайта есть в архиве web.archive.org. Тогда как максимум вы сможете ещё и увидеть решения, принятые на данных.

Генерируем гипотезы из общения с пользователем

В реальной жизни это мой самый любимый инструмент, практически любую задачу, которую я вижу впервые, начинаю с этого. 

Я обещала отсутствие общения и прочих дополнительных ресурсов в упражнениях, поэтому аккуратно посоветую книгу «Спроси маму» для начала. 

Два варианта этого упражнения без общения:

  • Придумайте персонажа и проведите его по всем этапам из ваших данных (у нас это кредитование, от заявки до погашения/непогашения кредита). Пусть он будет нетипичным, возможно, даже странным, но в рамках разумного (не отдал кредит, потому что съели Читаури — перебор :) 

  • Сделайте персонажем-пользователем чат-GPT. «Ты — пользователь кредитным продуктом. Расскажи, с какими сложностями ты столкнулся, когда получал кредит». И дальше всякие дополнительные вопросы, что-нибудь интересное обязательно должно нарисоваться! Мне bard (чат-GPT от Google, работает через vpn) сообщил, что были «нечёткие инструкции». Предполагаю, что все признаки с неоднозначным толкованием могли пострадать (стаж — какой? на последнем месте работы, непрерывный, за всю жизнь, в этой должности?). На вопрос «почему не отдал кредит» пожаловался, что его сектор экономики пострадал и его уволили, натолкнул на мысль, что такие данные, как «сектор экономики работодателя», возможно, могут быть полезными.

Генерируем гипотезы из общения с экспертом

Тут я погорячилась, не совсем генерируем гипотезы, пока только подготовим себя к общению с экспертом. Здесь возникает два мыслеупражнения:

  • Кто эксперт, где мы его будем искать? Возможно, даже вопрос нужно перефразировать: какой эксперт на моей задаче мне доступен?

  • Какие вопросы мы будем задавать?

Работаем внутри команды

Без команды — сложновато, но, мне кажется, можно прокачать даже наедине с собой. Представим, что проект, который мы делаем, разделён на несколько исполнителей. Как можно поделить: загрузка и предварительный просмотр данных, предобработка, EDA, визуализация (графики, скриншоты), выводы и рекомендации, презентация. 

Начинаем с конца, вы тот, кто будет делать презентацию:

  • оцените, сколько времени вам нужно на выполнение только вашей задачи. Если ни разу не делали презентацию, конечно, тяжеловато, но можно поискать близкие варианты, например, сколько времени вам нужно на написание резюме (тоже своего рода презентация). 

  • Оцените, сколько времени вам нужно с учётом выполнения своих задач другими участниками процесса. Звучит ещё сложней? Согласна, но все равно, хоть пальцем в небо, но обязательно ответьте на этот вопрос, со временем вы это проработаете.

  • Можете ли вы что-то делать параллельно с вашей командой? На мой взгляд, ответ «да». Например, можно подготовить шаблон презентации со слайдами, которые обязательно должны быть.

Повторите эти вопросы на следующем исполнителе, и так, пока не дойдёте до загрузки. Обязательно записывайте, но не подсматривайте, измерьте факт (сколько на самом деле у вас ушло времени, что дал вам предыдущий исполнитель). 

Сравните план с фактом: сошлись / сделал быстрее / сделал медленнее, то, что передал предыдущий исполнитель, было необходимо и достаточно / недостаточно / много воды. 

Попробуйте отрефлексировать — почему, что такого вы о себе не знаете? Если хорошенько докопаться до себя, любимого, и проделывать так на каждом проекте, думаю, на выходе бонусом вы получите ещё суперсилу аналитика «умею оценивать сроки» (только про себя пока, к сожалению, но и это уже огромный плюс).

Продолжаем нашу игру в управляемую шизофрению, пока делаем проект: каждый «исполнитель» после проведённой им работы пишет такой вывод, что вам как следующему исполнителю понятно, что делать. Если проект проходит проверку и вы допустили ошибки (это замечательно!), проговорите со всеми исполнителями: как, почему они этот момент упустили, что стоит делать в будущем им всем. На мой взгляд, «виноват» всегда самый первый (тот, который сейчас делает эти упражнения). Остальные — просто руки, которые кодят и рисуют, что сказали, но я не настаиваю.

Заключение

Мне нравится аналогия из книги Нейтана Яу «Искусство визуализации в бизнесе»:

«После того как вы узнаете о своих данных всё, что можно, вы будете готовы приступить к созданию графики. И лучше думать об этом в таком ключе. Помните тот момент в фильме «Парень-каратист», когда Дэниел только начинает осваивать боевые искусства? Мистер Мияги поручает ему отполировать кучу автомобилей, надраить деревянные полы и покрасить забор, и Дэниел впадает в отчаяние, так как ему кажется: всё это бесполезные задания. Но затем он, конечно, выясняет, что и удар, и блокировка у него вдруг стали получаться сами собой, а все потому, что он отработал нужные движения. 

То же самое и с данными. Изучите всё, что связано с данными, и визуализация начнет получаться у вас естественно и непринужденно».

Аналогия применима не только к процессу визуализации, но и к работе с данными в целом. Возможно ли изучить «всё, что связано с данными», — не знаю точно, но мы сделали много, может, даже близко к этому «всё».

Что будем делать дальше? Повторять упражнения на каждом проекте до момента «это уже слишком просто для меня», параллельно искать своего мистера Мияги (или мистера Мияги в себе?), чтобы сделать следующий шаг.

© Habrahabr.ru