Preprocessing pandas dataframes. Предварительная обработка данных в пандас датафреймах
Обработка датафреймов: ключевые аспекты и инструменты
Датафреймы — это одна из самых популярных структур данных для работы с табличными данными. Они широко используются в анализе данных, машинном обучении и научных исследованиях. Датафреймы представляют собой таблицы, где данные организованы в строках и столбцах, что делает их удобными для обработки и анализа. Рассмотрим основные аспекты работы с датафреймами.
Что такое датафрейм?
Датафрейм — это двумерная структура данных, где каждый столбец может содержать данные определённого типа (числа, строки, даты и т.д.), а строки представляют собой записи. Датафреймы поддерживают операции фильтрации, сортировки, агрегации и преобразования данных, что делает их универсальным инструментом для анализа.
Основные операции с датафреймами
Загрузка данных
Датафреймы можно создавать из различных источников: CSV-файлов, баз данных, Excel-таблиц или API.Просмотр данных
Для ознакомления с данными используются методы:head () — вывод первых строк.
tail () — вывод последних строк.
info () — информация о структуре данных.
describe () — статистика по числовым столбцам.
# проверим данные на присутвие дубликатов
lst = [df1, df2, df3, df4] # инициализируем список со всеми таблицами
sl = {} # инициализируем словарь для записи результатов
# проходимся циклом по всем таблицам и проверяем наличие дубликатов
for i, df in tqdm(enumerate(lst), total = len(lst)):
sl[f'df{i+1}'] = df.duplicated().sum()
# выводим словарь с результатами проверки
sl
Фильтрация и выбор данных
Фильтрация позволяет выбирать данные по условиям.
Агрегация данных
Агрегация позволяет суммировать данные, например, посчитать среднее значение, сумму или количество.
Обработка пропущенных значений
Пропущенные значения можно удалить или заполнить.
# проверим данные на присутвие пропусков
lst = [df1, df2, df3, df4] # инициализируем список со всеми таблицами
sl = {} # инициализируем словарь для записи результатов
# проходимся циклом по всем таблицам и проверяем наличие пропусков
for i, df in tqdm(enumerate(lst), total = len(lst)):
sl[f'df{i+1}'] = df.isna().sum().sum()
# выводим словарь с результатами проверки
sl
# удаление некорректных колонок
df4.dropna(axis = 1, thresh = len(df) - 10000, inplace = True)
df4
Преобразование данныхДатафреймы поддерживают множество операций для преобразования данных, например:
# инициализация функции приведение к числовому формату
def clear_df1(val):
return str(val).split('(')[0]
# приведение к числовому формату
df1['Общее количество достопримечательностей'] = df1['Общее количество достопримечательностей'].progress_apply(lambda x: int(clear_df1(x)))
df1.info()
Сортировка данных
Данные можно сортировать по одному или нескольким столбцам.
Популярные библиотеки для работы с датафреймами
Pandas (Python) — самая популярная библиотека для работы с датафреймами. Она предоставляет мощные инструменты для обработки и анализа данных.
Dplyr ® — библиотека для работы с данными в языке R, известная своим удобным синтаксисом.
Spark DataFrame (Scala/Python/Java) — инструмент для распределённой обработки больших объёмов данных.
Polars (Rust/Python) — быстрая альтернатива Pandas для работы с большими датасетами.
Заключение
Обработка датафреймов — это важный этап в анализе данных. Современные библиотеки, такие как Pandas, делают этот процесс простым и эффективным. Освоение базовых операций с датафреймами позволяет быстро очищать, преобразовывать и анализировать данные, что необходимо для принятия обоснованных решений в любой области.