はじめに
この実験では、Python の人気のあるデータ分析および操作ライブラリである Pandas を使用して、DataFrame から特定のデータを選択する方法を学びます。このチュートリアルではタイタニック号のデータセットを使用します。
VM のヒント
VM の起動が完了したら、左上隅をクリックして ノートブック タブに切り替え、Jupyter Notebook を使って練習しましょう。
Jupyter Notebook の読み込みには数秒かかる場合があります。Jupyter Notebook の制限により、操作の検証は自動化できません。
学習中に問題が発生した場合は、Labby にお問い合わせください。セッション後にフィードバックを提供してください。すぐに問題を解決いたします。
必要なライブラリとデータのインポート
まず、Pandas ライブラリとタイタニック号のデータセットをインポートする必要があります。
## Import pandas library
import pandas as pd
## Load the Titanic dataset
titanic = pd.read_csv("data/titanic.csv")
titanic.head()
単一の列を選択する
単一の列を選択するには、関心のある列名に角括弧 [] を使用します。
## Select the 'Age' column
ages = titanic["Age"]
## Display the first 5 rows
ages.head()
複数の列を選択する
複数の列を選択するには、選択角括弧 [] の中に列名のリストを使用します。
## Select the 'Age' and 'Sex' columns
age_sex = titanic[["Age", "Sex"]]
## Display the first 5 rows
age_sex.head()
特定の行をフィルタリングする
条件式に基づいて行を選択するには、選択角括弧 [] の中に条件を使用します。
## Filter rows where 'Age' is greater than 35
above_35 = titanic[titanic["Age"] > 35]
## Display the first 5 rows
above_35.head()
特定の行と列を選択する
一度に行と列を選択するには、loc または iloc 演算子を使用します。
## Select 'Name' of passengers older than 35
adult_names = titanic.loc[titanic["Age"] > 35, "Name"]
## Display the first 5 rows
adult_names.head()
まとめ
この実験では、Pandas の DataFrame からデータを選択およびフィルタリングする方法を学びました。単一または複数の列を選択する方法、特定の条件に基づいて行をフィルタリングする方法、および特定の行と列を選択する方法を学びました。これらの操作は、Pandas を使ったデータ分析と操作において基本的なものです。