[Перевод] Крутые Data Scientist не тратят время на статистику
Недавно я узнала, что один мой хороший друг получил докторскую степень по статистике, при этом он даже никогда не думал над вопросом:, а какой собственно прок от статистики? О боже. Если не знаешь — для чего, тогда и не знаешь — нужно ли оно тебе. И раз профессорам это не очевидно, посмотрим, что смогу сделать я.
Статистика — это наука о том, как принимать решения в условиях неопределенности. Как вы можете думать? Следовать стандартным действиям или идти по пути априорных убеждений. Но что делать, если ваш разум не определился? Что если у вас еще не сложилось на этот счет никакого мнения?
Просто руководствуйтесь своими предположениями (это такой причудливый способ сказать, что «лучшая догадка строится на ваших знаниях»). Как это сделать? Посмотрите на данные, и скажите, что там. Это называется аналитикой (или data-mining), а если вам когда-нибудь доводилось пользоваться электронными таблицами, то вы наверняка уже ответили на вопрос. Дело в том, что ваше чутье поможет сделать правильную оценку и, соответственно, выбор. Поэтому всякая необходимость в сложных математических расчетах попросту отпадает.
«Но я ведь могу и ошибаться!» Конечно, ошибка не исключена, это и значит — попасть в неопределенность. В мире нет такой математики, благодаря которой можно было бы прийти к уверенному ответу. Ваша лучшая догадка может оказаться ошибочной, но тем не менее, раз это ваше лучшее предположение, на фоне него все остальные неправильны и даже скорее ошибочны.
Так что, сколько бы данных у вас не было, просто следуйте своей интуиции.
«Подождите, но мне нужно знать, достаточно ли у меня данных?» — Правда? А достаточно для чего?
Притормозите на минуточку и представьте, что вы выбираете между голубой и оранжевой шляпами. Если вам на самом деле все равно, какой будет цвет, а данные складываются в пользу оранжевого экземпляра, то, взяв в итоге голубую шляпу, вы будете выглядеть как полный безумец. Даже если набралось всего 3 пункта. Да даже если за оранжевую говорит всего 0.0000000000001%. С какого перепугу тогда голубая?! Берите оранжевую шляпу и не мучайтесь больше с математикой.
Если вам не важен цвет шляпы, и в пользу оранжевого экземпляра доводов набирается больше, то не сыскать такой математики, которая в итоге указала бы вам на голубую шляпу. Математика — это вам не магия, и здравый смысл она не нарушает.
Единственный вариант, почему бы вы в итоге взяли голубую шляпу — она изначально нравилась вам больше.Тогда вы могли поинтересоваться, насколько сильны аргументы в пользу оранжевой. Другими словами, достаточно ли данных, чтобы изменить решение. Что ж, ну как вам сказать? Добро пожаловать в статистику.
В первой строке таблицы данные не противоречат вашим начальным предпочтениям, статистические расчеты не нужны. Вы можете принять решение незамедлительно. Если доводы не соответствуют вашим предпочтениям, вы можете обратиться к статистическим расчетам, чтобы посмотреть, смогут ли эти доказательства заставить вас передумать.
Статистика — это наука о том, как менять свои решения.
Итак, если вы столкнулись с неопределенностью (к примеру, «Будет ли эта система машинного обучения работать с данными, полученными завтра?») и варианты решения не равнозначны (например, «Нам, вероятно не следует запускать ее, если она не работает»), тогда вы пришли в правильное место: статистика вам пригодится. Ознакомьтесь с ее идеями подробнее здесь. Всем остальным советую бросить это дело и перестать скрупулезно перебирать кучу цифр… тем более, что это бестолку. Вам лучше заняться аналитикой.
Узнайте подробности, как получить востребованную профессию с нуля или Level Up по навыкам и зарплате, пройдя платные онлайн-курсы SkillFactory: