Шаблон новичка на пути PANDAS в искусстве анализа данных

f2b74650e713359a39200728ed7cbe81

Доброго времени суток! Меня зовут Алексей. Сейчас я обучаюсь на аналитика данных в «Яндекс Практикум». Дело для меня непривычное, совершенно не связанное с моей предыдущей деятельностью (пока что работаю врачом, иногда пишу рассказы и повести), так что порой некоторые темы даются с большим трудом.

Начинающий аналитик данных с первых дней учёбы сталкивается с необходимостью освоить одну из наиболее важных в его будущей работе библиотек python — pandas. По себе знаю: порой здесь возникает такая путаница в голове, что первые простые задания вызывают ступор. Пройдя множество учебных заданий и успешно сдав несколько проектов, хочу поделиться с такими же новичками, как я сам, парой советов, которые, надеюсь, смогут упростить учебный процесс и первые шаги в новой профессии.

И мой главный совет:»сделайте себе шаблон»!

Не важно, в чём вы пишете код: «Google colaboratory», «Jupiter notebook» или в какой-то иной среде. Не важно, сколько вы пока знаете: если осваиваете профессию с нуля, вносите в шаблон всё, что уже умеете — позже всегда можно удалить лишнее. Шаблон поможет вам быстро сориентироваться в любой новой задаче, напомнит о необходимых манипуляциях. 

Постарайтесь найти баланс между общими правилами оформления работы, которые от вас требуют (преподаватели, ревью, заказчики), логикой программирования и вашими личными предпочтениями в ведении документации. 

Лично я большую часть учебных проектов выполнил в «Google colaboratory» (далее по тексту просто «колаб»), где предпочитаю следующую структуру шаблона.

Шапка

Название шапки напишем в отдельной текстовой ячейке с ### — там мы создаём раздел, который в колаб можно свернуть, спрятав ячейки текста и кода. Плюс: если кто-то будет просматривать вашу работу в «Jupiter notebook», текст сформирует заголовок и пункт оглавления, что будет удобно и вам, и просматривающим вашу работу. 

Ниже вставьте хотя бы одну пустую ячейку под описание, вводной части или какого-то предварительного пояснения. 

Подготовка к работе

Новый раздел. Также стоит название раздела записать в пустой ячейки, начав с ###.

В этом разделе стоит загрузить библиотеки и добавить некоторые предварительные настройки. 

Отдельно по колаб. Если вы, как и я, предпочитаете работу в колаб, в первую очередь необходимо подключить возможность использовать доступный вам виртуальный диск «Google drive». Чтобы избежать конфликта при ревью в другой среде, заключите код в конструкцию «try — except». Если вы планируете скачивать из вашей работы какие-либо файлы, добавьте в этот же блок функцию колаб для загрузки файлов.

try:

  from google.colab import drive

  drive.mount('/content/drive')

  # загрузка файлов из колаб

  from google.colab import files

except:

  print('Подключение к google-drive не выполнено. Вы просматриваете проект в другой среде. Код запущен далее.')

Здесь же можно добавить скрытие предупреждений, которые колаб щедро раздаёт при работе:

# colab часто выдаёт предупреждения - скроем их

import warnings

warnings.filterwarnings("ignore")

Далее поставим ячейку кода загрузки библиотек. Конечно, для анализа данных основной вашей библиотекой будет pandas (запишите её сразу со стандартным псевдонимом pd):

import pandas as pd

В зависимости от целей вашей работы на этом этапе может возникнуть необходимость загрузки и других библиотек. При изготовлении шаблона оставьте себе максимальное количество полезных библиотек, добавьте комментарии, какие библиотеки и для чего вам необходимы. К примеру, мой шаблон в этом разделе пестрит обилием следующих библиотек:

# для работы с показателями времени

from datetime import datetime

 # для "красоты" (графики и оформление)

import matplotlib.pyplot as plt

from pandas.plotting import register_matplotlib_converters

# конвертеры, которые позволяют использовать типы pandas в matplotlib  

register_matplotlib_converters()

import seaborn as sns

import plotly.express as px

from plotly import graph_objects as go

 # для математических и статистических операций

import numpy as np

import math as mth

import scipy.stats

from scipy import stats as st

# библиотеки для работы с дашбордами

import sys

import getopt

from sqlalchemy import create_engine

 # для создания двойного пути к базе данных - об этом чуть позже

import os

Далее заранее организуйте для себя наиболее удобный и приемлемый в рамках вашей работы вид выводимых пандами данных. Для этого добавьте код редактирования опций. Подробнее об опциях можно почитать в официальной документации по ссылке.

Лично я предпочитаю такие скромные вводные:

# количество строк в таблице не больше 5, чтобы не писать head() за каждым фреймом

pd.set_option('max_rows', 5)

# при необходимости раскрыть из комментария полный вывод данных в колонке

# pd.set_option('display.max_colwidth', None)

# оставим всего три знака после запятой у чисел с плавающей точкой

pd.set_option('display.float_format', '{:.3f}'.format)

Даже, если вы ещё только учитесь, очень рано вам понадобится использовать графики. Вам, вашим преподавателям или заказчикам будет комфортно просматривать графики и диаграммы, если они будут выполнены в общей стилистике. Редактируя параметры matplotlib.pyplot можно заранее задать размер шрифта заголовков и осей, цветовую гамму и стиль. Подробнее о параметрах можно почитать в официальной документации по ссылке.

Вот пример параметров моего основного шаблона:

large = 16; med = 12; small = 10

params = {'axes.titlesize': large,

          'legend.fontsize': med,

          'figure.figsize': (12, 8),

          'axes.labelsize': med,

          'axes.titlesize': med,

          'xtick.labelsize': med,

          'ytick.labelsize': med,

          'figure.titlesize': large}

plt.rcParams.update(params)

plt.style.use('seaborn-whitegrid')

# на мой взгляд лучше всего подходит палитра deep

# она не пёстрая, относительно контрастная

# однако в реальном заказе я предпочёл бы принятые у заказчика цвета для подобной работы

sns.set_palette('deep') 

sns.set_style("whitegrid")

Ознакомление с данными

Когда всё готово для работы, можно приступить к загрузке данных и ознакомлению. 

Как я уже говорил, я прохожу обучение в «Яндекс Практикум». При работе над учебными проектами студентам даётся выбор: работать данными в «Jupiter notebook» на платформе или скачать файл и работать локально в удобной для обучающегося среде. Если работать локально, то перед отправкой на ревью потребуется исправить часть кода с загрузкой данных, чтобы они подгружались из того же ресурса, что и у преподавателя… Или вы можете задать двойной путь к файлу данных: один ваш локальный, второй — ссылка преподавателя. Для этого воспользуемся техникой создания двойного пути с помощью библиотеки os:

pth1='первый_путь_к_файлу/../файл.csv'

pth2='второй_путь_к_файлу/../файл.csv'

if os.path.exists(pth1):

  df = pd.read_csv(pth1, delimiter='\t')

elif os.path.exists(pth2):

  df = pd.read_csv(pth2, delimiter='\t')

else:

  print('Проверьте правильность пути к датасету')

Этот приём пригодится вам также при ситуации, когда один и тот же код вы используете на разных машинах, средах и так далее (к примеру, часть работы делаете на стареньком домашнем компьютере без интернета, часть — непосредственно на рабочем месте, может быть, даже в гостях у любимой бабушки). При работе с несколькими файлами данных прописывайте им соответствующие пути (1 файл — pth1, pth2; 2 файл — pth3, pth4 и т.д.) с последующей конструкцией if-else.

Когда данные загружены, можно посмотреть сформированные датафреймы. Если вы, как и я, указали в опциях ('max_rows', 5), то ставить head () уже не потребуется — датафрейм автоматически выведет только 5 строк (две первых, пустую — обозначает прочие строки, две последних). Если вам нужно больше строк, используйте head () или отредактируйте опции и перезапустите код. Для большого числа строк можно добавить функцию подсветки строк при наведении курсора мыши:

# добавим подсветку строки при наведении - просто для красоты

df.style.set_sticky(axis="index")

Далее, если необходимо, пройдите по датафрейму стандартными функциями оценки. Некоторые педагоги «Практикума» требуют применения максимального числа функций на этапе ознакомления с данными. Возможно, в вашей учёбе или работе вам потребуется проделать аналогичную работу. Так что не поленитесь добавить себе в шаблон:

-оценку общих данных о датафреме

df.info()

-поиск пропущенных значений

df.isna().sum()

-поиск абсолютных дубликатов

df.duplicated().sum()

Предобработка

Предобработка данных зависит от качества первоначальных данных и стоящих перед вами задач. Тем не менее, стоит внести себе в шаблон хотя бы в качестве напоминания того, что вы можете сделать с датафреймом прежде, чем приступите к анализу. 

Приведите имена колонок в стилистически правильные или удобные вам, если это необходимо. К примеру, таким способом:

df.columns = ['имена колонок через запятую']

Обработайте дубликаты. В зависимости от данных и поставленных задач, с абсолютными дубликатами возможны разные варианты работы. Если задача допускает удаление дубликатов, то сделайте это здесь всего одной строкой, не забыв при этом обновить индекс фрейма:

df = df.drop_duplicates().reset_index(drop=True)

Если ваш датафрейм содержит колонку исключительно уникальных значений (к примеру, id пользователей), а поставленная задача требует максимального разнообразия данных, вы также можете провести очистку датафрейма от дубликатов без учёта колонки уникальных значений:

df = df.drop_duplicates(subset=['колонки, по которым идёт очистка'], keep=False)

df = df.reset_index(drop=True)

Используйте этот метод аккуратно: без учёта уникальных значений вы можете потерять очень много данных, хотя и добьетесь максимального разнообразия. 

Вот пожалуй и всё, что стоит по минимуму иметь в пригодным для учёбы и работы шаблоне. Всё остальное вы можете внести сами по вашим желаниям и необходимости. 

Удачи на пути Панды!

© Habrahabr.ru