Работа с структурами данных в Pandas

Beginner

This tutorial is from open-source community. Access the source code

Введение

Pandas - это мощная библиотека Python для манипуляции данными и их анализа. Его фундаментальные структуры данных, Series и DataFrame, позволяют хранить и обрабатывать структурированные данные. В этом практическом занятии будет приведено пошаговое руководство по работе с этими структурами данных, начиная от их создания и до манипуляций и выравнивания.

Советы по работе с ВМ

После запуска виртуальной машины кликните в левом верхнем углу, чтобы переключиться на вкладку Notebook и получить доступ к Jupyter Notebook для практики.

Иногда может потребоваться подождать несколько секунд, пока Jupyter Notebook загрузится полностью. Валидация операций не может быть автоматизирована из-за ограничений Jupyter Notebook.

Если вы столкнетесь с проблемами во время обучения, не стесняйтесь обращаться к Labby. Оставьте отзыв после занятия, и мы оперативно решим проблему для вас.

Импорт необходимых библиотек

Прежде чем мы начнем, импортируем необходимые библиотеки. Для этого практического занятия понадобятся NumPy и pandas.

## Import necessary libraries
import numpy as np
import pandas as pd

Создание Series

Первая структура данных, с которой мы познакомимся, — это Series, которая представляет собой одномерный массив с метками. Она может содержать любые типы данных, включая целые числа, строки, числа с плавающей точкой и объекты Python.

## Create a Series
s = pd.Series([1, 3, 5, np.nan, 6, 8])

Создание DataFrame

Другая фундаментальная структура данных — это DataFrame. Это двухмерная структура данных с метками, в которой столбцы могут иметь разные типы.

## Create a DataFrame
df = pd.DataFrame(np.random.randn(6, 4), columns=list('ABCD'))

Обработка столбцов DataFrame

Вы можете выполнять различные операции с столбцами DataFrame. Например, можно выбрать столбец, добавить новый столбец или удалить столбец.

## Select column A
df['A']

## Add a new column E
df['E'] = pd.Series(np.random.randn(6), index=df.index)

## Delete column B
del df['B']

Выравнивание данных и арифметические операции

Выравнивание данных — важная особенность pandas. При выполнении операций с двумя объектами pandas выравнивает их по связанным меткам.

## Create two DataFrames
df1 = pd.DataFrame(np.random.randn(10, 4), columns=['A', 'B', 'C', 'D'])
df2 = pd.DataFrame(np.random.randn(7, 3), columns=['A', 'B', 'C'])

## Perform addition operation
result = df1 + df2

Работа с функциями NumPy

Большинство функций NumPy можно вызывать непосредственно для объектов Series и DataFrame, что обеспечивает большую гибкость при обработке и анализе данных.

## Apply the exponential function to a DataFrame
np.exp(df)

Резюме

В этом практическом занятии мы изучили две фундаментальные структуры данных в pandas: Series и DataFrame. Мы увидели, как создавать и манипулировать этими структурами, а также как непосредственно применять функции NumPy к ним. Мы также изучили концепцию выравнивания данных, которая является мощной особенностью pandas и позволяет интуитивно обрабатывать и анализировать данные.