Введение
Pandas - это мощный инструмент для манипуляции данными, разработанный на языке Python. Он часто используется в анализе и очистке данных, так как обладает гибкостью и простотой в использовании. В этом практическом занятии мы научимся использовать Pandas для выполнения основных операций, таких как загрузка данных, создание DataFrame, доступ к данным и проведение простой статистики.
Советы по использованию ВМ
После запуска виртуальной машины щелкните в левом верхнем углу, чтобы переключиться на вкладку Ноутбук и получить доступ к Jupyter Notebook для практики.
Иногда может потребоваться подождать несколько секунд, пока Jupyter Notebook не загрузится полностью. Валидация операций не может быть автоматизирована из-за ограничений Jupyter Notebook.
Если вы столкнетесь с проблемами во время обучения, не стесняйтесь обращаться к Labby. Оставьте отзыв после занятия, и мы оперативно решим проблему для вас.
Импортируем пакет Pandas
Прежде чем использовать Pandas, его необходимо импортировать. Обычно Pandas импортируют с псевдонимом pd.
## Importing pandas package
import pandas as pd
Создаем DataFrame
Данные в pandas хранятся в DataFrame, который представляет собой двухмерную структуру данных с метками, в которой столбцы могут иметь разные типы.
## Creating a DataFrame
df = pd.DataFrame(
{
"Name": [
"Braund, Mr. Owen Harris",
"Allen, Mr. William Henry",
"Bonnell, Miss. Elizabeth",
],
"Age": [22, 35, 58],
"Sex": ["male", "male", "female"],
}
)
Выбираем столбец
Если вы хотите работать с данными в определенном столбце, вы можете выбрать его по метке столбца. Результатом будет pandas Series.
## Selecting the 'Age' column
df["Age"]
Выполняем базовую статистику
Pandas предоставляет много функций для выполнения статистики. Например, вы можете найти максимальное значение в столбце с помощью max().
## Finding the maximum age
df["Age"].max()
Вы также можете получить быстрый обзор числовых данных в DataFrame с помощью describe().
## Describing the numerical data
df.describe()
Резюме
В этом практическом занятии мы узнали, как импортировать пакет Pandas, создавать DataFrame, выбирать столбец и выполнять базовую статистику. Pandas - это универсальный инструмент, который может обрабатывать данные разных типов, что делает его отличным выбором для анализа и манипуляции данными.