Работа с Pandas

Beginner

This tutorial is from open-source community. Access the source code

Введение

Pandas - это мощный инструмент для манипуляции данными, разработанный на языке Python. Он часто используется в анализе и очистке данных, так как обладает гибкостью и простотой в использовании. В этом практическом занятии мы научимся использовать Pandas для выполнения основных операций, таких как загрузка данных, создание DataFrame, доступ к данным и проведение простой статистики.

Советы по использованию ВМ

После запуска виртуальной машины щелкните в левом верхнем углу, чтобы переключиться на вкладку Ноутбук и получить доступ к Jupyter Notebook для практики.

Иногда может потребоваться подождать несколько секунд, пока Jupyter Notebook не загрузится полностью. Валидация операций не может быть автоматизирована из-за ограничений Jupyter Notebook.

Если вы столкнетесь с проблемами во время обучения, не стесняйтесь обращаться к Labby. Оставьте отзыв после занятия, и мы оперативно решим проблему для вас.

Это Guided Lab, который предоставляет пошаговые инструкции, чтобы помочь вам учиться и практиковаться. Внимательно следуйте инструкциям, чтобы выполнить каждый шаг и получить практический опыт. Исторические данные показывают, что это лабораторная работа уровня начальный с процентом завершения 86%. Он получил 100% положительных отзывов от учащихся.

Импортируем пакет Pandas

Прежде чем использовать Pandas, его необходимо импортировать. Обычно Pandas импортируют с псевдонимом pd.

## Importing pandas package
import pandas as pd

Создаем DataFrame

Данные в pandas хранятся в DataFrame, который представляет собой двухмерную структуру данных с метками, в которой столбцы могут иметь разные типы.

## Creating a DataFrame
df = pd.DataFrame(
    {
        "Name": [
            "Braund, Mr. Owen Harris",
            "Allen, Mr. William Henry",
            "Bonnell, Miss. Elizabeth",
        ],
        "Age": [22, 35, 58],
        "Sex": ["male", "male", "female"],
    }
)

Выбираем столбец

Если вы хотите работать с данными в определенном столбце, вы можете выбрать его по метке столбца. Результатом будет pandas Series.

## Selecting the 'Age' column
df["Age"]

Выполняем базовую статистику

Pandas предоставляет много функций для выполнения статистики. Например, вы можете найти максимальное значение в столбце с помощью max().

## Finding the maximum age
df["Age"].max()

Вы также можете получить быстрый обзор числовых данных в DataFrame с помощью describe().

## Describing the numerical data
df.describe()

Резюме

В этом практическом занятии мы узнали, как импортировать пакет Pandas, создавать DataFrame, выбирать столбец и выполнять базовую статистику. Pandas - это универсальный инструмент, который может обрабатывать данные разных типов, что делает его отличным выбором для анализа и манипуляции данными.