Введение в Pandas

PythonPythonBeginner

This tutorial is from open-source community. Access the source code

💡 Этот учебник переведен с английского с помощью ИИ. Чтобы просмотреть оригинал, вы можете перейти на английский оригинал

Введение

В этом практическом занятии мы познакомим вас с основами pandas - мощной библиотеки для манипуляции данными в Python. Мы проведем вас через различные задачи, такие как импорт pandas, создание и просмотр данных, выборка данных, операции и многое другое.

Советы по работе с ВМ

После запуска ВМ нажмите в левом верхнем углу, чтобы переключиться на вкладку Notebook и получить доступ к Jupyter Notebook для практики.

Иногда вам может потребоваться подождать несколько секунд, пока Jupyter Notebook не загрузится полностью. Валидация операций не может быть автоматизирована из-за ограничений Jupyter Notebook.

Если вы сталкиваетесь с проблемами во время обучения, не стесняйтесь обращаться к Labby. Оставьте отзыв после занятия, и мы оперативно решим проблему для вас.

Импорт pandas и numpy

Во - первых, нам нужно импортировать пакеты pandas и numpy. Pandas - это мощная библиотека для манипуляции данными, а numpy используется для математических операций.

## Importing necessary libraries
import numpy as np
import pandas as pd

Создание объектов

Мы создадим Series, передав список значений, и pandas создаст стандартный целочисленный индекс.

## Creating a pandas series
s = pd.Series([1, 3, 5, np.nan, 6, 8])
s

Создание DataFrame

Мы можем создать DataFrame, передав массив numpy, с индексом datetime и именованными столбцами.

## Creating a pandas dataframe
dates = pd.date_range("20130101", periods=6)
df = pd.DataFrame(np.random.randn(6, 4), index=dates, columns=list("ABCD"))
df

Просмотр данных

Мы можем просмотреть первые и последние строки DataFrame с использованием методов head() и tail() соответственно.

## Viewing top rows
df.head()

## Viewing bottom rows
df.tail(3)

Выбор данных

Мы можем выбирать данные с использованием меток или по позиции.

## Selecting a single column
df["A"]

## Selecting via position
df.iloc[3]

Операции с данными

Мы можем выполнять операции с DataFrame, такими как сортировка, применение функций и т.д.

## Sorting by an axis
df.sort_index(axis=1, ascending=False)

## Applying a function to the data
df.apply(np.cumsum)

Работа с пропущенными данными

Pandas предоставляет методы для работы с пропущенными данными в DataFrame.

## Filling missing data
df.fillna(value=5)

## Getting the boolean mask where values are nan
pd.isna(df)

Построение графиков для данных

Pandas использует matplotlib для построения графиков для данных.

## Plotting data
df.plot()

Сохранение и загрузка данных

Pandas предоставляет методы для сохранения и загрузки данных в различных форматах, таких как csv, excel, hdf5 и др.

## Saving data to a csv file
df.to_csv("foo.csv")

## Loading data from a csv file
pd.read_csv("foo.csv")

Резюме

В этом практическом занятии мы рассмотрели основы работы с pandas, включая создание и просмотр данных, выбор и манипуляцию данными, а также сохранение и загрузку данных. Мы также узнали, как обрабатывать пропущенные данные и как строить графики для данных. Это должно дать прочную основу для дальнейшего изучения pandas для анализа данных.