[Перевод] В чем разница между исследователем данных и статистиком?
Всем привет. Открыт набор на новый курс от Otus — «Прикладная аналитика на R», который стартует уже в конце этого месяца. В связи с этим хочу поделиться переводом публикации о разнице между аналитиком по данным и статистиком, который в свою очередь использует R на практике.
Введение
За последние десять лет объемы данных и скорость их появления росли по экспоненте. Если верить отчетам, каждый день появляется более 3 квинтиллионов байтов данных! Неудивительно, что для работы с ними появилась новая профессия исследователя данных (data scientist) — разностороннего специалиста по анализу и обработке данных. Однако люди занимались статистикой и до появления цифровых средств обработки данных. В чем же различия этих двух профессий: исследователь данных и статистик?
Давайте разберемся.
Кто такой исследователь данных?
Исследователь данных превосходит по профессиональным качествам любого инженера-программиста, а также лучше разбирается в разработке ПО, чем любой статистик.
Исследователи данных работают с большими объемами данных, которые, как правило, находятся в хранилищах организаций или на сайтах, но при этом сами по себе практически бесполезны с точки зрения получения стратегических или финансовых преимуществ. Чтобы предоставить рекомендации и предложения для принятия оптимальных решений, исследователи данных вооружаются статистическими планами и оценивают предыдущие и текущие данные из таких источников.
В маркетинге и системах планирования исследователи данных в основном заняты выявлением идей и статистических показателей, которые могут быть полезны для подготовки, реализации и отслеживания маркетинговых политик, ориентированных на результат.
Кто такой статистик?
Статистики собирают и оценивают информацию в поисках шаблонов поведения или описаний среды. На основе этой информации они строят модели. Эти модели можно использовать для прогнозирования и постижения вселенной.
Например, статистика показывает, что отмечать день рождения безопасно — чем старше человек, тем больше дней рождения он отпраздновал.
Исследователь в области статистики создает и использует статистические или математические модели, помогающие решать реальные проблемы на основе собираемых и обобщаемых полезных данных. Данные собираются, анализируются и используются в разных областях, в том числе в инженерном деле, науке и бизнесе. Накопленные числовые данные помогают компаниям и их клиентам понимать количественные показатели и отслеживать или прогнозировать тенденции, полезные при принятии бизнес-решений.
Различия в навыках
Исследователь данных
1. Образование
Информатики обычно высокообразованны — у 88% из них степень магистра, а 46% являются соискателями кандидатской степени. Хотя из этого правила есть и исключения, в целом, чтобы получить необходимые экспертные знания и навыки в сфере науки об информации, как правило, требуется сильная учебная подготовка.
2. Программирование на R
Специалистам по анализу данных предпочтительно хорошо знать хотя бы один подобный инструмент. R создан именно для нужд науки о данных. С помощью R можно обрабатывать любую информацию для научных задач. 43% исследователей данных используют R, чтобы решать статистические задачи. Однако у R довольно тернистый путь изучения.
3. Программирование на Python
Python, наряду с Java, Perl и C/C++, является одним из самых популярных языков программирования для науки о данных. Для исследователей данных Python — хороший вариант.
4. Платформа Hadoop
Не во всех, но во многих случаях владеть этим инструментом весьма желательно. Ценность специалиста возрастает, если у него также есть опыт работы с Hive или Pig. Могут пригодиться и облачные инструменты, такие как Amazon S3.
5. SQL: работа с базами данных и программирование
Исследователи данных должны владеть SQL. Этот язык программирования предназначен специально для работы с данными. Он позволяет получать интересующую вас информацию из баз данных с помощью кратких инструкций-запросов — быстро и без написания громоздкого кода.
6. Машинное обучение и искусственный интеллект
Многие исследователи данных не владеют алгоритмами и методами машинного обучения, ничего не смысля в нейронных сетях, глубоком и конкурентном обучении и подобных вещах. Однако, если вы хотите выделяться на фоне остальных исследователей данных, вам лучше разбираться в таких методах, как машинное обучение с учителем, деревья решений, логистическая регрессия и др.
7. Визуализация данных
Объем данных в корпоративном мире огромен. Они требуют преобразования в более простые для понимания форматы. Как правило, люди лучше воспринимают данные в виде графиков и диаграмм.
8. Неструктурированные данные
Исследователь данных должен быть готов к работе с неструктурированными данными. Такие данные имеют произвольный формат и не хранятся в базах данных — например, фотографии, записи в блогах, отзывы клиентов, посты в соцсетях, видеозаписи, аудиофайлы и т. п.
9. Знание принципов ведения бизнеса
Чтобы быть исследователем в области информации, нужно понимать сектор, в котором вы работаете, а также бизнес-задачи, которые стоят перед вашим предприятием.
10. Навыки коммуникации
Компаниям, которые ищут сильного исследователя данных, нужен человек, который сможет понятно и свободно донести технические результаты до непрофильной аудитории, например до маркетологов или специалистов по продажам.
Статистики
- Глубокие знания теории вероятности и индуктивной статистики.
- Умение работать с цифрами — этот навык отражает общий уровень интеллекта, а его развитие во многом способствует достижению целей организации.
- Аналитические способности — умение собирать и оценивать данные, решать задачи и делать выбор. Эти навыки помогут решать вопросы, с которыми сталкивается компания, повышать производительность труда и достигать корпоративных целей.
- Навыки письменной и устной коммуникации.
- Хорошие навыки межличностного общения — черты и модели поведения, которые мы демонстрируем при взаимодействии с другими. Они считаются одними из самых актуальных социально-психологических навыков. Мы используем их во всех ситуациях вербального и невербального взаимодействия. Действительно, основные черты личности и отношение человека к работе оказывают определяющее влияние на его способность преуспеть на той или иной должности.
Различия в инструментах
Инструменты статистика
1. SPSS
«Статистический пакет для общественных наук» (Statistical Package for the Social Sciences, SPSS) — возможно, самое распространенное статистическое ПО в области исследования поведения человека. Визуальный интерфейс SPSS позволяет комбинировать описательную статистику и результаты параметрического и непараметрического анализа, представленные в графическом виде. В SPSS есть возможность создания скриптов для автоматизации оценок или сложных статистических вычислений.
2. R
R — это свободно распространяемый программный пакет, который активно используется в исследованиях поведения человека и других областях. Инструментарий на основе R, упрощающий различные этапы процесса обработки информации, доступен для различных сфер применения. R — это высокопроизводительное ПО, но освоить его не так просто. Кроме того, для его применения потребуются навыки написания кода.
3. MATLAB (Mathworks)
MatLab — это платформа для аналитики и программирования, которая широко используется техническими специалистами и исследователями. Как и в случае с R, путь освоения довольно тернист, и на определенном этапе потребуется писать свои программы. Разнообразные инструменты помогут справиться с исследовательскими задачами (например, инструментарий EEGLab предназначен для анализа данных ЭКГ). Хотя MatLab будет трудно использовать новичкам, этот пакет предоставляет очень широкие возможности, при условии что вы можете писать код (или, по крайней мере, запустить необходимый инструментарий).
4. Microsoft Excel
Приложение Microsoft Excel предлагает целый ряд инструментов визуализации и простых в использовании статистических функций, хотя и не является полноценным инструментом статистического анализа. В нем легко работать с числами, подсчитывать сводные итоги и создавать настраиваемые графики. Это полезные инструменты для тех, кто хочет увидеть, какие данные лежат в основе имеющейся информации. Так как Excel используют многие люди и компании, его можно считать доступным вариантом для начинающих.
5. GraphPad Prism
GraphPad Prism дает много возможностей, которые можно применять в самых разных областях, прежде всего в статистике, связанной с биологией. Аналогично SPSS, анализ и сложные статистические вычисления здесь можно автоматизировать с помощью скриптов.
6. Minitab
В пакете программ Minitab доступно множество как базовых, так и довольно сложных статистических инструментов для оценки информации. Аналогично GraphPad Prism, благодаря графическому пользовательскому интерфейсу и скриптам, он может быть доступен как новичкам, так и пользователям, которым нужен более сложный анализ.
Инструменты исследователя данных
1. R
R — это свободно распространяемый программный пакет для статистических вычислений и их визуализации. R компилируется и работает на многих UNIX-, Windows- и macOS-платформах.
2. Python
Python — популярный язык программирования, разработанный Гвидо ван Россумом (Guido van Rossum). Исходный код языка был впервые опубликован в 1991 году. Python используется для разработки бэкендов, производства компьютеров, математических задач, создания скриптов для систем.
3. Julia
Язык Julia изначально создавался для высокопроизводительных вычислений. Для различных LLVM-систем программы на Julia компилируются в эффективный нативный код. Julia — это язык программирования с динамической типизацией, который выглядит как скриптовый язык и имеет отличные интерактивные подсказки в среде разработки.
4. Tableau
Tableau — это один из самых быстро развивающихся инструментов визуализации данных в секторе бизнес-аналитики. Это лучший способ преобразования сырых данных в удобные для понимания форматы, не требующий технических знаний и умения программировать.
5. QlikView
QlikView — это одна из основных платформ для обнаружения корпоративных данных. От традиционных систем бизнес-аналитики она отличается по целому ряду характеристик. Как инструмент анализа информации, она всегда визуализирует связи между данными с помощью цвета, а также отображает несвязанную информацию. Прямой и непрямой поиск реализован посредством ввода запросов в заголовках списков.
6. AWS
Предлагающая вычислительные мощности, ресурсы базы данных и сервисы доставки содержимого защищенная облачная платформа Amazon Web Services (AWS) помогает компаниям расширять свой бизнес. Миллионы клиентов уже используют AWS и альтернативы для разработки сложных приложений, обладающих большой гибкостью, масштабируемостью и надежностью.
7. Spark
Apache Spark — это быстрый фреймворк для кластерных вычислений. Он поддерживает высокоуровневые API для Java, Scala, Python и R, а также оптимизированный движок для обработки графов.
8. RapidMiner
RapidMiner — технологическая платформа для обработки данных. Она включает функции подготовки данных, алгоритмы машинного и глубокого обучения, средства анализа текста, а также среду прогнозной аналитики. RapidMiner поддерживает все средства машинного обучения, включая подготовку информации, визуализацию результатов, проверку соблюдения требований проектного задания и оптимизацию. RapidMiner используется в бизнесе, промышленности, в целях обучения и преподавания, быстрого прототипирования и разработки ПО.
9. Databricks
Платформа Databricks, объединяющая средства обработки данных и технологическую поддержку бизнеса, создана для специалистов по данным, инженеров и исследователей. Платформа поддерживает весь жизненный цикл машинного обучения: от подготовки информации до тестирования и реализации.
Различия в заработной плате
Исследования данных не только более востребованы, чем работы статистиков, но и лучше оплачиваются. По данным Glassdoor, средняя зарплата исследователя данных в США составляет 118 709 долларов США, а статистика — 75 069 долларов США. Исследователь данных — универсальный специалист для предприятия, способный дать ответы на важные вопросы. Обычно ему достается открытый вопрос. Специалист выясняет, какая информация потребуется, определяет срок выполнения задачи, выполняет моделирование и анализ и пишет блестящую программу, которая позволяет получить ответ.
Карьерные возможности
Карьерные возможности статистика
Специалист по статистическим методам
Специалисты по статистическим методам, как правило, выполняют анализ информации под руководством старшего специалиста по статистике, который может также являться их наставником. Через некоторое время многие такие специалисты выходят из закулисья на более ответственные и самостоятельные должности и берут на себя сложные технические задачи.
Прикладной статистик
Прикладные статистики отвечают за то, чтобы по каждому важному вопросу были собраны и подготовлены подходящие данные для анализа (или был проведен соответствующий анализ) и подготовлен отчет с результатами. Они тесно взаимодействуют с другими техническими специалистами и руководством, являясь неотъемлемой частью команды проекта.
Старший специалист по статистике
Старший специалист по статистике имеет более широкий круг обязанностей, чем прикладной статистик. Он исследует вопросы комплексно, чтобы найти связи с целями организации в целом. Чтобы предлагать свежие идеи, которые через некоторое время принесут выгоду организации и клиентам, старшие специалисты по статистике действуют на опережение. Часто они подключаются на ранних этапах проекта, помогают выявить проблемы, опираясь на цифры, и рекомендуют способы их решения старшему руководству. Затем их привлекают для подготовки и представления результатов. В статистических вопросах они часто являются лучшим источником информации и опыта.
Руководитель отдела статистики
Руководители отделов статистики, особенно самые молодые, участвуют в планировании проектов, помогая определить, что должно произойти. Они набирают сотрудников, дают советы и отвечают за общие результаты проектов. Они информируют старших руководителей о достижениях отдела, помогают в карьерном развитии своим сотрудникам и определяют направления развития. В их административные обязанности входит набор и развитие сотрудников, а также оценка эффективности их работы. По понятным причинам руководителей требуется меньше, чем рядовых работников.
Частный консультант по статистике
Некоторые прикладные статистики становятся независимыми частными консультантами. Они выполняют специальные исследования, часто по заказу организаций, в которых нет специалистов по статистике, или оценивают работу других статистиков. Консультанты по статистке часто привлекаются в качестве экспертов при решении юридических вопросов.
Карьерные возможности специалиста по анализу данных
Исследователь данных
Исследователи данных работают со статистическими и математическими моделями, используемыми для обработки информации. Светлый ум специалиста по анализу данных пригодится при создании системы оценки количества кредитов, которые не смогут выплатить в следующем месяце.
Специалист по обработке данных
Эти специалисты широкого профиля используют вычислительные системы для обработки больших наборов данных, опираясь на свои знания в области разработки ПО. Как правило, каждый из них знает несколько языков программирования, таких как Python и Java. Обычно эти работники сосредоточены на написании кода, очистке данных и выполнении запросов от исследователей данных. Чтобы преобразовать прогнозную модель, которую создал исследователь данных, в программный код, обычно прибегают к услугам специалиста по обработке данных.
Аналитик
И наконец, есть специалисты, которые исследуют данные, создают отчеты и визуализируют то, что эти данные несут в себе. Аналитики помогают сотрудникам компании получать информацию по конкретным вопросам.
Резюме
Выдающийся аналитик — ценный специалист; его стиль написания кода оптимизирован с точки зрения скорости. Но он не является статистиком, даже плохим, потому что он не делает окончательных заключений на основе фактов. Главная задача аналитика — заявить: «Вот что содержится в наших данных. Говорить, что из этого следует — не моя задача. Возможно, лицо, принимающее решения, захочет привлечь статистика, чтобы это выяснить».
На этом все, ждем всех на курсе.