Pandas を使ったタイタニック号の乗客データ分析

Beginner

This tutorial is from open-source community. Access the source code

はじめに

この実験では、Python の Pandas ライブラリを使ってデータの要約統計量を計算する方法を学びます。タイタニック号の沈没に関する乗客のデータが含まれるタイタニックデータセットを使用します。要約統計量、集計統計量を計算し、カテゴリごとのレコード数をカウントする方法を学びます。

VM のヒント

VM の起動が完了したら、左上隅をクリックしてノートブックタブに切り替え、Jupyter Notebook を使って練習しましょう。

時々、Jupyter Notebook が読み込み終わるまで数秒待つ必要があります。Jupyter Notebook の制限により、操作の検証は自動化できません。

学習中に問題に遭遇した場合は、Labby にお問い合わせください。セッション後にフィードバックを提供してください。すぐに問題を解決いたします。

これは Guided Lab です。学習と実践を支援するためのステップバイステップの指示を提供します。各ステップを完了し、実践的な経験を積むために、指示に注意深く従ってください。過去のデータによると、この 初級 レベルの実験の完了率は 96%です。学習者から 100% の好評価を得ています。

データセットのインポート

最初のステップは、使用するデータセットをインポートすることです。

## pandas ライブラリのインポート
import pandas as pd

## データセットの読み込み
titanic = pd.read_csv("data/titanic.csv")

## データセットの最初の 5 行を表示
titanic.head()

要約統計量の計算

このステップでは、タイタニック号のデータセットの要約統計量を計算します。

## タイタニック号の乗客の平均年齢を計算
average_age = titanic["Age"].mean()
## 結果を表示
print(f"タイタニック号の乗客の平均年齢は {average_age} です")

## タイタニック号の乗客の中央値の年齢とチケット料金を計算
median_age_fare = titanic[["Age", "Fare"]].median()
## 結果を表示
print(f"タイタニック号の乗客の中央値の年齢とチケット料金は {median_age_fare} です")

カテゴリ別に集計した統計量

次に、カテゴリ別に集計した統計量を学びます。

## タイタニック号の男性と女性の乗客の平均年齢を計算
average_age_sex = titanic[["Sex", "Age"]].groupby("Sex").mean()
## 結果を表示
print(f"タイタニック号の男性と女性の乗客の平均年齢は {average_age_sex} です")

## 性別と客室等級の各組み合わせごとの平均チケット料金を計算
mean_fare_sex_class = titanic.groupby(["Sex", "Pclass"])["Fare"].mean()
## 結果を表示
print(f"性別と客室等級の各組み合わせごとの平均チケット料金は {mean_fare_sex_class} です")

カテゴリ別のレコード数のカウント

最後に、カテゴリ別のレコード数をカウントします。

## 各客室等級の乗客数をカウント
passengers_per_class = titanic["Pclass"].value_counts()
## 結果を表示
print(f"各客室等級の乗客数は {passengers_per_class} です")

まとめ

この実験では、Python の Pandas ライブラリを使って、要約統計量を計算し、統計量を集計し、カテゴリ別のレコード数をカウントする方法を学びました。これらの操作にはタイタニック号のデータセットを使用しました。これらの技術はデータ分析にとって基本的なものであり、任意のデータセットに適用できます。