Давайте говорить друг другу про реальность

Как многие из нас догадываются, человек это стайная обезьяна, которая следит за другими обезьянами, чтобы научиться у них чему-то полезному. Именно на этом строится существенная часть обучения вообще и в IT в частности — на подглядывании за другими. За тем как люди выкладывают свой код или просто о чём-то рассказывают. Однако, рассказывают они не обо всё.

4f9fd65c37af61b637c9f028388073fb.jpg

Очень часто, этот код или текст не являются продуктом нацеленным на то, чтобы дать другим обеъянкам полноценное обучение. Очень часто в головы читателям загружается что-то вырванное из контекста и не содержащее чего-то важного. Например, в рассказах про работу с данными забывают рассказать о том месте из которого эти данные взялись. То есть, о реальности.

И лучше всего это продемонстрировать на двух примерах

Пример №1: Работа аналитика

a329fb6e1ee9d0448fe1d7f4bb9f2ad5.png

(Сама статья вот тут — https://habr.com/ru/articles/787098/)

Простой набор банальностей, которые позволят новичку получить представление о методах анализа данных. Для простоты это обёрнуто в пример продаж с сайта и даже сделаны правильные оговорки

Целый месяц перед новым годом проходила массовая реклама с раздачей промо кодов со скидками на красные самокаты. Как итог — общая прибыль компании упала. Опытный аналитик сразу выявит, что на прибыль повлияли не только промокоды, но и другие факторы, такие как сезонность, внедрение нового сайта, изменение цен и несколько других влияющих факторов, которые совпали во времени с промокодами и могли оказаться не менее значимыми. Поэтому нужна более релевантная метрика, например процент пользователей воспользовавшихся промокодами и процент красных самокатов в доле проданных.

Казалось бы, читателю дают указание на то, что не стоит слишком уж упорно искать желаемую взаимосвязь и стоит учесть влияние других факторов.

Но посмотрите на график из примера.

007baddd70bf0c7ec386040e70e2436d.png

По легенде, это «процент пользователей воспользовавшихся промокодами». То есть, в этом графике отражены данные о вводе промокода и о посещаемости веб-сайта. Какой вопрос должен задать себе опытный аналитик, глядя на скачкообразное изменение в конце января? Правильно: «А не сбой ли это в данных?»

Потому, что на самом деле мы работаем не с данными, которые 100% точно отражают реальность, а с данными собранными конкретными техническими методами, что неизбежно создаёт риски и искажения.

Если упал процент пользователей воспользовавшихся промокодами, то либо упало количество воспользовавшихся, либо выросло количество пользователей, либо и то и то.

Количество воспользовавшихся фиксируется внутренними средствами сайта. Мы полностью контролируем эти данные и можем 100% на них положиться. Что же могло случиться?

Например:

  • отвалился кусок часть базы промокодов и часть вводов промокдов перестала фиксироваться как успешная

  • обновился какой-нибудь браузер/антивирус/блокировщик_рекламы и у части пользователей перестала срабатывать яваскриптовая обвязка формы

  • обновился серверный скрипт обрабатывающий промокоды, из него убрали обрезку пробелов на концах и из-за этого перестали приниматься некоторые промокоды из писем, перебрасываемые через буфер

  • много чего ещё

И, конечно же, ничто из этого не является «внедрение нового сайта», потому что (а) внедрение нового сайта это, в первую очередь, вопрос юзабилити и (б) это мелкие работы в рамках существующего веб-сайта.

Количество пользователей сайта вообще мы контролируем внешними средствами. Просто потому что сбор сервисных логов и их чистка от ботов и пр., это геморой, а внешние счётчики даёт много вкусностей. Что же могло случиться?

Например:

  • неизбежный переход с GA3 на GA4

  • сервис изменил методики подсчёта

  • коллеги изменили настройки/фильтры

  • кто-то заметил что счётчик не стоит в шаблоне обрабатывающем 404 ошибку и справил ситуацию

  • много чего ещё

Нет, я не говорю, что @maratyv должен был написать все возможные варианты приведшие к изменению собирания статистики , но можно же сказать «да, этот скачёк очень похож на сбой или изменение методики сбора статистики, но сейчас мы это рассматривать не будем, потому что это просто синтетический пример для осваивания методов анализа данных».

И когда дойдёт до реального анализа, обезъянка, учившаяся на примере из рассматриваемой статьи, может быть скажет себе «а проверю как я, откуда взялись эти данные».

Может и не скажет, но давайте дадим обезъянке шанс запомнить, что используемые данные являются лишь искажённым и неполным отражением реальности, и эту искажённость и неполноту надо учитывать.

Пример №2: Загрузка данных

19a5da45dd9eebb5344c7722e74172cd.png

(Сама статья вот тут — https://habr.com/ru/companies/rshb/articles/797435/)

Я понятия не имею насколько полно и корректно описан процесс с технической токи зрения, но я в восторге от того, что @VasilPRM вставил в текст SWOT-анализ. Это как раз то самое о чём я пишу — надо показывать обезьянкам правильные подходы, и SWOT-анализ (или любой другой подсчёт плюсов и минусов) это очень правильно.

Но вот вопрос сопряжения с реальностью снова не раскрыт.

А реальность проявляется вот в этом — данные в Excel.

40f62ef9e79cbb8ebd3ff9a6d189cabb.png

Во-первых, встаёт вопрос формата.

»06.09.2023» это июнь или сентябрь? Какая именно информация будет перенесена в базу?

Вы скажете, что точки в качестве разделителя намекают скорее на европейский формат записи даты, чем на американский. Да, но гарантии нет, и при этом, на одном из скриншотов есть дата в формате »06/09/2023».

Так же, на одном из скриншотов виден вес в формате »0,00», но я не вижу инструкции «убедитесь что используете нужный разделитель целой и дробной части числа».

Как это не банально звучит, но мы имеем дело не с самой реальностью, а с данными записанными в формате, который допускает различные интерпретации.

Во-вторых, у нас есть ещё более существенная проблема — откуда взялись эти данные?

Потому что это ещё более страшное проявление реальности, чем просто точность подсчёта и формат записи. Эти данные туда руками вбили люди, которые не гнушаются практиковать ленность ума и имеющие анатомические особенности в плане места произрастания рук на их теле.

В столбике «Тип ЕО» вручную вбиты буквы «М» и «O», а они латинские или кириллические? Сейчас на это смотрят глазами и разница не существенно, но когда это будет загружено в большую базу, то это может на что-то повлиять.

Тут было бы очень уместно сказать обезьянке о том, что за набивание ответственны какие-то другие люди, но за загрузку — именно обезьянка. А значит, надо проверить всё форматы данных, корректность заполнения, убедиться что не только в столбике «Тип ЕО», но и в поле «Cистема охраны» первая «C» кириллическая, а не латинская.

И это лишь два примера из множества других текстов, в которых люди раскрывают свои узкие темы, не затрагивая сопряжённые вопрос.

И я понимаю этих людей, потому что они рассказывают об анализе и экспорте данных, а учить обезьянок гигиене не входит в их задачу.

Увы, реальность такова, что обезьянки прочитают только лишь вашу статью и начнут действовать. И в этой схеме нет того, кто переставит им руки, поставит мозги и расскажет о том, что реальность существует и это надо учитывать.

Поэтому, коллеги, начинайте делать в своих текстах правильные уточнения и оговорки.

Ведь нам всем предстоит жить в мире, созданном обезьянками, освоившими профессию по нашим текстам и примерам.

© Habrahabr.ru