Введение
В этом практическом занятии мы научимся использовать библиотеку Pandas для Python для вычисления статистических характеристик данных. Мы будем использовать датасет Titanic, в котором содержатся данные о пассажирах, погибших при затоплении Титаника. Мы узнаем, как вычислять статистические характеристики, агрегированные статистики и подсчитывать количество записей по категориям.
Советы по использованию ВМ
После запуска виртуальной машины нажмите в левом верхнем углу, чтобы переключиться на вкладку Notebook и получить доступ к Jupyter Notebook для практики.
Иногда вам может потребоваться подождать несколько секунд, пока Jupyter Notebook загрузится. Проверка операций не может быть автоматизирована из-за ограничений Jupyter Notebook.
Если вы столкнетесь с проблемами во время обучения, не стесняйтесь обращаться к Labby. Оставьте отзыв после занятия, и мы оперативно решим проблему для вас.
Импорт датасета
Первым шагом является импорт датасета, который мы будем использовать.
## Импорт библиотеки pandas
import pandas as pd
## Чтение датасета
titanic = pd.read_csv("data/titanic.csv")
## Отображение первых пяти строк датасета
titanic.head()
Вычисление статистических характеристик
В этом шаге мы вычислим статистические характеристики для датасета Titanic.
## Вычисление среднего возраста пассажиров Титаника
average_age = titanic["Age"].mean()
## Вывод результата
print(f"Средний возраст пассажиров Титаника составляет {average_age}")
## Вычисление медианного возраста и стоимости билета для пассажиров Титаника
median_age_fare = titanic[["Age", "Fare"]].median()
## Вывод результата
print(f"Медианный возраст и стоимость билета для пассажиров Титаника равны {median_age_fare}")
Агрегация статистики по группам по категориям
Далее мы научимся агрегировать статистику по группам, разделенным по категориям.
## Вычисление среднего возраста для мужчин и женщин пассажиров Титаника
average_age_sex = titanic[["Sex", "Age"]].groupby("Sex").mean()
## Вывод результата
print(f"Средний возраст для мужчин и женщин пассажиров Титаника составляет {average_age_sex}")
## Вычисление средней стоимости билета для каждой комбинации пола и класса каюты
mean_fare_sex_class = titanic.groupby(["Sex", "Pclass"])["Fare"].mean()
## Вывод результата
print(f"Средняя стоимость билета для каждой комбинации пола и класса каюты равна {mean_fare_sex_class}")
Подсчет количества записей по категориям
Наконец, мы подсчитаем количество записей по категориям.
## Подсчет количества пассажиров в каждом классе кают
passengers_per_class = titanic["Pclass"].value_counts()
## Вывод результата
print(f"Количество пассажиров в каждом классе кают составляет {passengers_per_class}")
Обзор
В этом практическом занятии мы научились вычислять статистические характеристики, агрегировать статистику и подсчитывать количество записей по категориям с использованием библиотеки Pandas для Python. Мы использовали датасет Titanic для выполнения этих операций. Эти методы являются фундаментальными для анализа данных и могут быть применены к любому датасету.