Preprocessing pandas dataframes. Предварительная обработка данных в пандас датафреймах

2828f1b3d9ad890e91d08ebae49b1589

Обработка датафреймов: ключевые аспекты и инструменты

Датафреймы — это одна из самых популярных структур данных для работы с табличными данными. Они широко используются в анализе данных, машинном обучении и научных исследованиях. Датафреймы представляют собой таблицы, где данные организованы в строках и столбцах, что делает их удобными для обработки и анализа. Рассмотрим основные аспекты работы с датафреймами.

Что такое датафрейм?

Датафрейм — это двумерная структура данных, где каждый столбец может содержать данные определённого типа (числа, строки, даты и т.д.), а строки представляют собой записи. Датафреймы поддерживают операции фильтрации, сортировки, агрегации и преобразования данных, что делает их универсальным инструментом для анализа.

Основные операции с датафреймами

  1. Загрузка данных
    Датафреймы можно создавать из различных источников: CSV-файлов, баз данных, Excel-таблиц или API.

  2. Просмотр данных
    Для ознакомления с данными используются методы:

    • head () — вывод первых строк.

    • tail () — вывод последних строк.

    • info () — информация о структуре данных.

    • describe () — статистика по числовым столбцам.

# проверим данные на присутвие дубликатов
lst = [df1, df2, df3, df4] # инициализируем список со всеми таблицами
sl = {} # инициализируем словарь для записи результатов

# проходимся циклом по всем таблицам и проверяем наличие дубликатов
for i, df in tqdm(enumerate(lst), total = len(lst)):
    sl[f'df{i+1}'] = df.duplicated().sum()

# выводим словарь с результатами проверки
sl

Фильтрация и выбор данных

Фильтрация позволяет выбирать данные по условиям.

Агрегация данных

Агрегация позволяет суммировать данные, например, посчитать среднее значение, сумму или количество.

Обработка пропущенных значений

Пропущенные значения можно удалить или заполнить.

# проверим данные на присутвие пропусков
lst = [df1, df2, df3, df4] # инициализируем список со всеми таблицами
sl = {} # инициализируем словарь для записи результатов

# проходимся циклом по всем таблицам и проверяем наличие пропусков
for i, df in tqdm(enumerate(lst), total = len(lst)):
    sl[f'df{i+1}'] = df.isna().sum().sum()

# выводим словарь с результатами проверки
sl

# удаление некорректных колонок
df4.dropna(axis = 1, thresh = len(df) - 10000, inplace = True)
df4

Преобразование данныхДатафреймы поддерживают множество операций для преобразования данных, например:

# инициализация функции приведение к числовому формату 
def clear_df1(val):
    return str(val).split('(')[0]

# приведение к числовому формату
df1['Общее количество достопримечательностей'] = df1['Общее количество достопримечательностей'].progress_apply(lambda x: int(clear_df1(x)))
df1.info()

Сортировка данных

Данные можно сортировать по одному или нескольким столбцам.

Популярные библиотеки для работы с датафреймами

  • Pandas (Python) — самая популярная библиотека для работы с датафреймами. Она предоставляет мощные инструменты для обработки и анализа данных.

  • Dplyr ® — библиотека для работы с данными в языке R, известная своим удобным синтаксисом.

  • Spark DataFrame (Scala/Python/Java) — инструмент для распределённой обработки больших объёмов данных.

  • Polars (Rust/Python) — быстрая альтернатива Pandas для работы с большими датасетами.

Заключение

Обработка датафреймов — это важный этап в анализе данных. Современные библиотеки, такие как Pandas, делают этот процесс простым и эффективным. Освоение базовых операций с датафреймами позволяет быстро очищать, преобразовывать и анализировать данные, что необходимо для принятия обоснованных решений в любой области.

© Habrahabr.ru