Python Pandas | Датасет Titanic | Статистические характеристики

Введение

В этом практическом занятии мы научимся использовать библиотеку Pandas для Python для вычисления статистических характеристик данных. Мы будем использовать датасет Titanic, в котором содержатся данные о пассажирах, погибших при затоплении Титаника. Мы узнаем, как вычислять статистические характеристики, агрегированные статистики и подсчитывать количество записей по категориям.

Советы по использованию ВМ

После запуска виртуальной машины нажмите в левом верхнем углу, чтобы переключиться на вкладку Notebook и получить доступ к Jupyter Notebook для практики.

Иногда вам может потребоваться подождать несколько секунд, пока Jupyter Notebook загрузится. Проверка операций не может быть автоматизирована из-за ограничений Jupyter Notebook.

Если вы столкнетесь с проблемами во время обучения, не стесняйтесь обращаться к Labby. Оставьте отзыв после занятия, и мы оперативно решим проблему для вас.

Это Guided Lab, который предоставляет пошаговые инструкции, чтобы помочь вам учиться и практиковаться. Внимательно следуйте инструкциям, чтобы выполнить каждый шаг и получить практический опыт. Исторические данные показывают, что это лабораторная работа уровня начальный с процентом завершения 96%. Он получил 100% положительных отзывов от учащихся.

Импорт датасета

Первым шагом является импорт датасета, который мы будем использовать.

## Импорт библиотеки pandas
import pandas as pd

## Чтение датасета
titanic = pd.read_csv("data/titanic.csv")

## Отображение первых пяти строк датасета
titanic.head()

Вычисление статистических характеристик

В этом шаге мы вычислим статистические характеристики для датасета Titanic.

## Вычисление среднего возраста пассажиров Титаника
average_age = titanic["Age"].mean()
## Вывод результата
print(f"Средний возраст пассажиров Титаника составляет {average_age}")

## Вычисление медианного возраста и стоимости билета для пассажиров Титаника
median_age_fare = titanic[["Age", "Fare"]].median()
## Вывод результата
print(f"Медианный возраст и стоимость билета для пассажиров Титаника равны {median_age_fare}")

Агрегация статистики по группам по категориям

Далее мы научимся агрегировать статистику по группам, разделенным по категориям.

## Вычисление среднего возраста для мужчин и женщин пассажиров Титаника
average_age_sex = titanic[["Sex", "Age"]].groupby("Sex").mean()
## Вывод результата
print(f"Средний возраст для мужчин и женщин пассажиров Титаника составляет {average_age_sex}")

## Вычисление средней стоимости билета для каждой комбинации пола и класса каюты
mean_fare_sex_class = titanic.groupby(["Sex", "Pclass"])["Fare"].mean()
## Вывод результата
print(f"Средняя стоимость билета для каждой комбинации пола и класса каюты равна {mean_fare_sex_class}")

Подсчет количества записей по категориям

Наконец, мы подсчитаем количество записей по категориям.

## Подсчет количества пассажиров в каждом классе кают
passengers_per_class = titanic["Pclass"].value_counts()
## Вывод результата
print(f"Количество пассажиров в каждом классе кают составляет {passengers_per_class}")

Обзор

В этом практическом занятии мы научились вычислять статистические характеристики, агрегировать статистику и подсчитывать количество записей по категориям с использованием библиотеки Pandas для Python. Мы использовали датасет Titanic для выполнения этих операций. Эти методы являются фундаментальными для анализа данных и могут быть применены к любому датасету.

Анализ данных о пассажирах Титаника с использованием Pandas