Preprocessing pandas dataframes. Предварительная обработка данных в пандас датафреймах26.02.2025 08:15

Обработка датафреймов: ключевые аспекты и инструменты

Датафреймы — это одна из самых популярных структур данных для работы с табличными данными. Они широко используются в анализе данных, машинном обучении и научных исследованиях. Датафреймы представляют собой таблицы, где данные организованы в строках и столбцах, что делает их удобными для обработки и анализа. Рассмотрим основные аспекты работы с датафреймами.

Что такое датафрейм?

Датафрейм — это двумерная структура данных, где каждый столбец может содержать данные определённого типа (числа, строки, даты и т.д.), а строки представляют собой записи. Датафреймы поддерживают операции фильтрации, сортировки, агрегации и преобразования данных, что делает их универсальным инструментом для анализа.

Основные операции с датафреймами

Загрузка данных
Датафреймы можно создавать из различных источников: CSV-файлов, баз данных, Excel-таблиц или API.
Просмотр данных
Для ознакомления с данными используются методы:
- head () — вывод первых строк.
- tail () — вывод последних строк.
- info () — информация о структуре данных.
- describe () — статистика по числовым столбцам.

# проверим данные на присутвие дубликатов
lst = [df1, df2, df3, df4] # инициализируем список со всеми таблицами
sl = {} # инициализируем словарь для записи результатов

# проходимся циклом по всем таблицам и проверяем наличие дубликатов
for i, df in tqdm(enumerate(lst), total = len(lst)):
    sl[f'df{i+1}'] = df.duplicated().sum()

# выводим словарь с результатами проверки
sl

Фильтрация и выбор данных

Фильтрация позволяет выбирать данные по условиям.

Агрегация данных

Агрегация позволяет суммировать данные, например, посчитать среднее значение, сумму или количество.

Обработка пропущенных значений

Пропущенные значения можно удалить или заполнить.

# проверим данные на присутвие пропусков
lst = [df1, df2, df3, df4] # инициализируем список со всеми таблицами
sl = {} # инициализируем словарь для записи результатов

# проходимся циклом по всем таблицам и проверяем наличие пропусков
for i, df in tqdm(enumerate(lst), total = len(lst)):
    sl[f'df{i+1}'] = df.isna().sum().sum()

# выводим словарь с результатами проверки
sl

# удаление некорректных колонок
df4.dropna(axis = 1, thresh = len(df) - 10000, inplace = True)
df4

Преобразование данныхДатафреймы поддерживают множество операций для преобразования данных, например:

# инициализация функции приведение к числовому формату 
def clear_df1(val):
    return str(val).split('(')[0]

# приведение к числовому формату
df1['Общее количество достопримечательностей'] = df1['Общее количество достопримечательностей'].progress_apply(lambda x: int(clear_df1(x)))
df1.info()

Сортировка данных

Данные можно сортировать по одному или нескольким столбцам.

Заключение

Обработка датафреймов — это важный этап в анализе данных. Современные библиотеки, такие как Pandas, делают этот процесс простым и эффективным. Освоение базовых операций с датафреймами позволяет быстро очищать, преобразовывать и анализировать данные, что необходимо для принятия обоснованных решений в любой области.

Preprocessing pandas dataframes. Предварительная обработка данных в пандас датафреймах26.02.2025 08:15

Что такое датафрейм?

Основные операции с датафреймами

Популярные библиотеки для работы с датафреймами

Заключение