В закладки: 12 материалов про EDA и статистический анализ данных

Привет! Это команда Яндекс Практикума. Эксперты курса «Специалист по Data Science» поделились 12 статьями, которые помогут ближе познакомиться с разведочным анализом и основами статистики, — рассказываем о них и делимся ссылками.

Что такое EDA и статистический анализ данных

Разведочный (или исследовательский) анализ данных, или Exploratory Data Analysis (EDA), — это процесс, в ходе которого аналитик знакомится с данными, прежде чем переходить к сложным аналитическим моделям. Это основа работы с данными, которая помогает как осознать, что за информация доступна аналитику, так и понять, возникнут ли трудности с её будущим анализом.

EDA используются во всех сферах, где работают с данными: в финтехе, торговле, маркетинге, производстве и не только.

Статистический анализ — один из инструментов EDA и работы с данными в принципе. Это набор статистических методов, связанных с количественной оценкой данных. Например, вычисление среднего или медианного значения — это одни из самых простых методов статистического анализа.

На курсе «Специалист по Data Science» разведочному и статистическому анализу посвящены два блока: студенты знакомятся с инструментами и закрепляют материал на практике — исследуют объявления о продаже недвижимости в Петербурге и Ленобласти, а потом проверяют гипотезы сервисы аренды самокатов, чтобы помочь вырастить бизнес. Погрузиться в тему можно и без обучения — поможет подборка материалов от экспертов курса.

1. «Практика EDA», Дмитрий Макаров

c4acbe8e74e5f8420d3bb5ffb4ca7124.png

Практический разбор системного анализа двух датасетов с помощью инструментов EDA. Материал полезен тем, кто только знакомится с основами разведочного анализа данных.

Перейти →

2. «Разведочный анализ (EDA)», Otus

bcd3f6b54155bde87c25980d9898b00e.png

Погружение в цели EDA и его инструменты, такие как гистограммы, «ящики с усами», тепловые карты и сводные статистики. В материале есть визуализации и примеры кода.

Перейти →

3. «Топ-9 библиотек в Python для профессионального анализа данных», Практикум

edc2faa2d736821d9ad1c124fe94ead8.png

Обзор главных библиотек для аналитика: от pandas, которая поможет подготовить данные, до scikit-learn для машинного обучения.

Перейти →

4. «Исследование данных: подробное руководство», Astera

714fd8705d81868adb1be362411dbc48.png

Пошаговый разбор исследования данных: от сбора до обработки, поиска выбросов и отображения с помощью статистики и визуализации.

Перейти →

5. EDA with pandas, Yevhen Strakhov

eb2171f0cbef2258f0fcc800c401227e.png

Разбор шагов разведочного анализа с помощью Python — в частности библиотек pandas, NumPy, Matplotlib и Seaborn.

Перейти →

6. Matplotlib vs. seaborn vs. Plotly vs. MATLAB vs. ggplot2 vs. pandas, Ritza articles

0c8210797b43452049f698d251b67fb2.png

Последовательное попарное сравнение инструментов визуализации данных. Без победителей и проигравших, но с конкретными сценариями, когда стоит использовать тот или иной инструмент.

Перейти →

7. «Основы статистики: просто о сложных формулах», Stepik

c7d014e3e771a9f71a8113790ddb68bf.png

Материал о том, как статистика помогает отличать верные выводы от ложных, — с техническим подходом, но на человечном языке и с наглядными примерами распространённых ошибок.

Перейти →

8. «Я прочитал книгу «Статистика и котики» и начал разбираться в анализе данных», Никита Смирнов

5417966a5ee1fa866af73eb69a8308a1.png

Краткий отзыв о популярной книге о статистике для новичков. Если вы не занимаетесь анализом данных, но чувствуете, что испытываете к ним интерес, начните с рецензии, а потом, может, и книги.

Перейти →

9. «Основы статистики», Stepik

cff7902d66c1089529c24a0f12b57e7f.png

Курс-знакомство с основными понятиями и методами математической статистики. Рассчитан на три недели и доступен бесплатно.

Перейти →

10. «Как понять (и простить) теорию вероятностей?», Маргарита Меликян

7f415a35f4be1a80b5e3f5c1dfeb8d4f.png

Выжимка о теории вероятностей — не поможет понять этот раздел математики с наскока, но может стать памяткой по проблемным местам, если уже ориентируетесь в предмете.

Перейти →

11. «Теория вероятностей и статистика», Ю.Н. Тюрин и др.

430a687687336bbf3502192c73a7e583.png

Пособие для учеников старших классов — самодостаточный материал с теорией без лишнего формализма и задачами для закрепления материала. Рассматривает ряд тем, связанных со статистикой и теорией вероятностей, включая комбинаторику, непрерывные распределения и закон больших чисел.

Перейти →

12. statistical models, hypothesis tests, and data exploration, statsmodels

00f59be41b5dc2c33f4f5f56e28d2b08.png

Курс по библиотеке Python statsmodels, которая используется для статистического анализа и объединяет графические возможности Matplotlib, инструменты подготовки данных pandas и математический функционал NumPy и SciPy.

Перейти →

Habrahabr.ru прочитано 4924 раза