Pandasを使ったタイタニック号の乗客データ分析

PythonPythonBeginner
今すぐ練習

This tutorial is from open-source community. Access the source code

💡 このチュートリアルは英語版からAIによって翻訳されています。原文を確認するには、 ここをクリックしてください

はじめに

この実験では、PythonのPandasライブラリを使ってデータの要約統計量を計算する方法を学びます。タイタニック号の沈没に関する乗客のデータが含まれるタイタニックデータセットを使用します。要約統計量、集計統計量を計算し、カテゴリごとのレコード数をカウントする方法を学びます。

VMのヒント

VMの起動が完了したら、左上隅をクリックしてノートブックタブに切り替え、Jupyter Notebookを使って練習しましょう。

時々、Jupyter Notebookが読み込み終わるまで数秒待つ必要があります。Jupyter Notebookの制限により、操作の検証は自動化できません。

学習中に問題に遭遇した場合は、Labbyにお問い合わせください。セッション後にフィードバックを提供してください。すぐに問題を解決いたします。

データセットのインポート

最初のステップは、使用するデータセットをインポートすることです。

## pandasライブラリのインポート
import pandas as pd

## データセットの読み込み
titanic = pd.read_csv("data/titanic.csv")

## データセットの最初の5行を表示
titanic.head()

要約統計量の計算

このステップでは、タイタニック号のデータセットの要約統計量を計算します。

## タイタニック号の乗客の平均年齢を計算
average_age = titanic["Age"].mean()
## 結果を表示
print(f"タイタニック号の乗客の平均年齢は {average_age} です")

## タイタニック号の乗客の中央値の年齢とチケット料金を計算
median_age_fare = titanic[["Age", "Fare"]].median()
## 結果を表示
print(f"タイタニック号の乗客の中央値の年齢とチケット料金は {median_age_fare} です")

カテゴリ別に集計した統計量

次に、カテゴリ別に集計した統計量を学びます。

## タイタニック号の男性と女性の乗客の平均年齢を計算
average_age_sex = titanic[["Sex", "Age"]].groupby("Sex").mean()
## 結果を表示
print(f"タイタニック号の男性と女性の乗客の平均年齢は {average_age_sex} です")

## 性別と客室等級の各組み合わせごとの平均チケット料金を計算
mean_fare_sex_class = titanic.groupby(["Sex", "Pclass"])["Fare"].mean()
## 結果を表示
print(f"性別と客室等級の各組み合わせごとの平均チケット料金は {mean_fare_sex_class} です")

カテゴリ別のレコード数のカウント

最後に、カテゴリ別のレコード数をカウントします。

## 各客室等級の乗客数をカウント
passengers_per_class = titanic["Pclass"].value_counts()
## 結果を表示
print(f"各客室等級の乗客数は {passengers_per_class} です")

まとめ

この実験では、PythonのPandasライブラリを使って、要約統計量を計算し、統計量を集計し、カテゴリ別のレコード数をカウントする方法を学びました。これらの操作にはタイタニック号のデータセットを使用しました。これらの技術はデータ分析にとって基本的なものであり、任意のデータセットに適用できます。