Введение
В этом практическом занятии мы познакомим вас с основами pandas - мощной библиотеки для манипуляции данными в Python. Мы проведем вас через различные задачи, такие как импорт pandas, создание и просмотр данных, выборка данных, операции и многое другое.
Советы по работе с ВМ
После запуска ВМ нажмите в левом верхнем углу, чтобы переключиться на вкладку Notebook и получить доступ к Jupyter Notebook для практики.
Иногда вам может потребоваться подождать несколько секунд, пока Jupyter Notebook не загрузится полностью. Валидация операций не может быть автоматизирована из-за ограничений Jupyter Notebook.
Если вы сталкиваетесь с проблемами во время обучения, не стесняйтесь обращаться к Labby. Оставьте отзыв после занятия, и мы оперативно решим проблему для вас.
Импорт pandas и numpy
Во - первых, нам нужно импортировать пакеты pandas и numpy. Pandas - это мощная библиотека для манипуляции данными, а numpy используется для математических операций.
## Importing necessary libraries
import numpy as np
import pandas as pd
Создание объектов
Мы создадим Series, передав список значений, и pandas создаст стандартный целочисленный индекс.
## Creating a pandas series
s = pd.Series([1, 3, 5, np.nan, 6, 8])
s
Создание DataFrame
Мы можем создать DataFrame, передав массив numpy, с индексом datetime и именованными столбцами.
## Creating a pandas dataframe
dates = pd.date_range("20130101", periods=6)
df = pd.DataFrame(np.random.randn(6, 4), index=dates, columns=list("ABCD"))
df
Просмотр данных
Мы можем просмотреть первые и последние строки DataFrame с использованием методов head() и tail() соответственно.
## Viewing top rows
df.head()
## Viewing bottom rows
df.tail(3)
Выбор данных
Мы можем выбирать данные с использованием меток или по позиции.
## Selecting a single column
df["A"]
## Selecting via position
df.iloc[3]
Операции с данными
Мы можем выполнять операции с DataFrame, такими как сортировка, применение функций и т.д.
## Sorting by an axis
df.sort_index(axis=1, ascending=False)
## Applying a function to the data
df.apply(np.cumsum)
Работа с пропущенными данными
Pandas предоставляет методы для работы с пропущенными данными в DataFrame.
## Filling missing data
df.fillna(value=5)
## Getting the boolean mask where values are nan
pd.isna(df)
Построение графиков для данных
Pandas использует matplotlib для построения графиков для данных.
## Plotting data
df.plot()
Сохранение и загрузка данных
Pandas предоставляет методы для сохранения и загрузки данных в различных форматах, таких как csv, excel, hdf5 и др.
## Saving data to a csv file
df.to_csv("foo.csv")
## Loading data from a csv file
pd.read_csv("foo.csv")
Резюме
В этом практическом занятии мы рассмотрели основы работы с pandas, включая создание и просмотр данных, выбор и манипуляцию данными, а также сохранение и загрузку данных. Мы также узнали, как обрабатывать пропущенные данные и как строить графики для данных. Это должно дать прочную основу для дальнейшего изучения pandas для анализа данных.