はじめに
Pandas は、Python で開発された強力なデータ操作ツールです。柔軟性と使いやすさがあるため、データ分析やクリーニングで頻繁に使用されます。この実験では、Pandas を使ってデータの読み込み、データフレームの作成、データのアクセス、および単純な統計処理などの基本操作を行う方法を学びます。
VM のヒント
VM の起動が完了したら、左上隅をクリックして Notebook タブに切り替え、Jupyter Notebook を使って練習しましょう。
時々、Jupyter Notebook が読み込み完了するまで数秒待つ必要がある場合があります。Jupyter Notebook の制限により、操作の検証は自動化できません。
学習中に問題が発生した場合は、Labby にお問い合わせください。セッション後にフィードバックを提供してください。すぐに問題を解決いたします。
Pandas パッケージをインポートする
Pandas を使用する前に、インポートする必要があります。Pandas をエイリアス pd でインポートするのが一般的な方法です。
## Importing pandas package
import pandas as pd
データフレームを作成する
pandas のデータはデータフレームに格納されます。これは、列が異なる型である可能性のある 2 次元のラベル付きデータ構造です。
## Creating a DataFrame
df = pd.DataFrame(
{
"Name": [
"Braund, Mr. Owen Harris",
"Allen, Mr. William Henry",
"Bonnell, Miss. Elizabeth",
],
"Age": [22, 35, 58],
"Sex": ["male", "male", "female"],
}
)
列を選択する
特定の列のデータを操作したい場合は、列ラベルを使用して選択できます。結果は pandas の Series になります。
## Selecting the 'Age' column
df["Age"]
基本的な統計を行う
Pandas には、統計を行うための多くの機能が用意されています。たとえば、max() を使用して列の最大値を求めることができます。
## Finding the maximum age
df["Age"].max()
また、describe() を使用することで、DataFrame 内の数値データの概要をすばやく把握することができます。
## Describing the numerical data
df.describe()
まとめ
この実験では、Pandas パッケージをインポートし、データフレームを作成し、列を選択し、基本的な統計を行う方法を学びました。Pandas は、さまざまな種類のデータを扱える多用途のツールであり、データ分析と操作に最適な選択肢の 1 つです。