Pandas におけるデータ選択

PythonPythonBeginner
今すぐ練習

This tutorial is from open-source community. Access the source code

💡 このチュートリアルは英語版からAIによって翻訳されています。原文を確認するには、 ここをクリックしてください

はじめに

この実験では、Python の人気のあるデータ分析および操作ライブラリである Pandas を使用して、DataFrame から特定のデータを選択する方法を学びます。このチュートリアルではタイタニック号のデータセットを使用します。

VM のヒント

VM の起動が完了したら、左上隅をクリックして ノートブック タブに切り替え、Jupyter Notebook を使って練習しましょう。

Jupyter Notebook の読み込みには数秒かかる場合があります。Jupyter Notebook の制限により、操作の検証は自動化できません。

学習中に問題が発生した場合は、Labby にお問い合わせください。セッション後にフィードバックを提供してください。すぐに問題を解決いたします。

必要なライブラリとデータのインポート

まず、Pandas ライブラリとタイタニック号のデータセットをインポートする必要があります。

## Import pandas library
import pandas as pd

## Load the Titanic dataset
titanic = pd.read_csv("data/titanic.csv")
titanic.head()

単一の列を選択する

単一の列を選択するには、関心のある列名に角括弧 [] を使用します。

## Select the 'Age' column
ages = titanic["Age"]

## Display the first 5 rows
ages.head()

複数の列を選択する

複数の列を選択するには、選択角括弧 [] の中に列名のリストを使用します。

## Select the 'Age' and 'Sex' columns
age_sex = titanic[["Age", "Sex"]]

## Display the first 5 rows
age_sex.head()

特定の行をフィルタリングする

条件式に基づいて行を選択するには、選択角括弧 [] の中に条件を使用します。

## Filter rows where 'Age' is greater than 35
above_35 = titanic[titanic["Age"] > 35]

## Display the first 5 rows
above_35.head()

特定の行と列を選択する

一度に行と列を選択するには、loc または iloc 演算子を使用します。

## Select 'Name' of passengers older than 35
adult_names = titanic.loc[titanic["Age"] > 35, "Name"]

## Display the first 5 rows
adult_names.head()

まとめ

この実験では、Pandas の DataFrame からデータを選択およびフィルタリングする方法を学びました。単一または複数の列を選択する方法、特定の条件に基づいて行をフィルタリングする方法、および特定の行と列を選択する方法を学びました。これらの操作は、Pandas を使ったデータ分析と操作において基本的なものです。