Pandas を使ったデータのマスター入門ガイド

はじめに

この実験では、Python の強力なデータ操作ライブラリである pandas の基本を紹介します。pandas のインポート、データの作成と表示、データ選択、操作など、様々なタスクを通じて案内します。

VM のヒント

VM の起動が完了したら、左上隅をクリックして ノートブック タブに切り替え、Jupyter Notebook を使って練習しましょう。

時々、Jupyter Notebook が読み込み完了するまで数秒待つ必要がある場合があります。Jupyter Notebook の制限により、操作の検証は自動化できません。

学習中に問題に遭遇した場合は、Labby にお問い合わせください。セッション後にフィードバックを提供してください。すぐに問題を解決いたします。

これは Guided Lab です。学習と実践を支援するためのステップバイステップの指示を提供します。各ステップを完了し、実践的な経験を積むために、指示に注意深く従ってください。過去のデータによると、この初級レベルの実験の完了率は 83%です。学習者から 100% の好評価を得ています。

pandas と numpy のインポート

まず、pandas と numpy のパッケージをインポートする必要があります。pandas は強力なデータ操作ライブラリであり、numpy は数学的演算に使用されます。

## 必要なライブラリのインポート
import numpy as np
import pandas as pd

オブジェクトの作成

値のリストを渡すことで Series を作成し、pandas はデフォルトの整数インデックスを作成します。

## pandas の Series を作成
s = pd.Series([1, 3, 5, np.nan, 6, 8])
s

データフレームの作成

numpy 配列を渡すことで、日付時間インデックスと列名付きの DataFrame を作成できます。

## pandas のデータフレームを作成
dates = pd.date_range("20130101", periods=6)
df = pd.DataFrame(np.random.randn(6, 4), index=dates, columns=list("ABCD"))
df

データの表示

head() と tail() メソッドをそれぞれ使用して、データフレームの先頭行と末尾行を表示できます。

## 先頭行を表示
df.head()

## 末尾の 3 行を表示
df.tail(3)

データの選択

ラベルまたは位置を使ってデータを選択できます。

## 単一の列を選択
df["A"]

## 位置を使って選択
df.iloc[3]

データ操作

ソートや関数の適用など、データフレームに対して操作を行うことができます。

## 軸に沿ってソート
df.sort_index(axis=1, ascending=False)

## データに関数を適用
df.apply(np.cumsum)

欠損データの処理

Pandas は、データフレーム内の欠損データを処理するためのメソッドを提供しています。

## 欠損データの補完
df.fillna(value=5)

## 値が NaN であるブールマスクを取得
pd.isna(df)

データのプロット作成

Pandas は、データのプロット作成に matplotlib を使用します。

## データのプロット作成
df.plot()

データの保存と読み込み

Pandas は、csv、excel、hdf5 などの様々な形式でデータを保存および読み込むためのメソッドを提供します。

## データを csv ファイルに保存
df.to_csv("foo.csv")

## csv ファイルからデータを読み込む
pd.read_csv("foo.csv")

まとめ

この実験では、pandas の基本を学びました。これには、データの作成と表示方法、データの選択と操作方法、およびデータの保存と読み込み方法が含まれます。また、欠損データの処理方法とデータのプロット作成方法についても学びました。これらは、データ分析のための pandas のさらなる探索のための堅牢な基礎を提供するはずです。

Pandas 入門