はじめに
この実験では、Python の強力なデータ操作ライブラリである pandas の基本を紹介します。pandas のインポート、データの作成と表示、データ選択、操作など、様々なタスクを通じて案内します。
VM のヒント
VM の起動が完了したら、左上隅をクリックして ノートブック タブに切り替え、Jupyter Notebook を使って練習しましょう。
時々、Jupyter Notebook が読み込み完了するまで数秒待つ必要がある場合があります。Jupyter Notebook の制限により、操作の検証は自動化できません。
学習中に問題に遭遇した場合は、Labby にお問い合わせください。セッション後にフィードバックを提供してください。すぐに問題を解決いたします。
pandas と numpy のインポート
まず、pandas と numpy のパッケージをインポートする必要があります。pandas は強力なデータ操作ライブラリであり、numpy は数学的演算に使用されます。
## 必要なライブラリのインポート
import numpy as np
import pandas as pd
オブジェクトの作成
値のリストを渡すことで Series を作成し、pandas はデフォルトの整数インデックスを作成します。
## pandas の Series を作成
s = pd.Series([1, 3, 5, np.nan, 6, 8])
s
データフレームの作成
numpy 配列を渡すことで、日付時間インデックスと列名付きの DataFrame を作成できます。
## pandas のデータフレームを作成
dates = pd.date_range("20130101", periods=6)
df = pd.DataFrame(np.random.randn(6, 4), index=dates, columns=list("ABCD"))
df
データの表示
head() と tail() メソッドをそれぞれ使用して、データフレームの先頭行と末尾行を表示できます。
## 先頭行を表示
df.head()
## 末尾の 3 行を表示
df.tail(3)
データの選択
ラベルまたは位置を使ってデータを選択できます。
## 単一の列を選択
df["A"]
## 位置を使って選択
df.iloc[3]
データ操作
ソートや関数の適用など、データフレームに対して操作を行うことができます。
## 軸に沿ってソート
df.sort_index(axis=1, ascending=False)
## データに関数を適用
df.apply(np.cumsum)
欠損データの処理
Pandas は、データフレーム内の欠損データを処理するためのメソッドを提供しています。
## 欠損データの補完
df.fillna(value=5)
## 値が NaN であるブールマスクを取得
pd.isna(df)
データのプロット作成
Pandas は、データのプロット作成に matplotlib を使用します。
## データのプロット作成
df.plot()
データの保存と読み込み
Pandas は、csv、excel、hdf5 などの様々な形式でデータを保存および読み込むためのメソッドを提供します。
## データを csv ファイルに保存
df.to_csv("foo.csv")
## csv ファイルからデータを読み込む
pd.read_csv("foo.csv")
まとめ
この実験では、pandas の基本を学びました。これには、データの作成と表示方法、データの選択と操作方法、およびデータの保存と読み込み方法が含まれます。また、欠損データの処理方法とデータのプロット作成方法についても学びました。これらは、データ分析のための pandas のさらなる探索のための堅牢な基礎を提供するはずです。