はじめに
Pandas は、データの操作と分析に強力な Python ライブラリです。その基本的なデータ構造である Series と DataFrame を使って、構造化データを格納し操作することができます。この実験では、これらのデータ構造を作成から操作、整列までどのように扱うかについての手順を示します。
VM のヒント
VM の起動が完了したら、左上隅をクリックして Notebook タブに切り替え、Jupyter Notebook を使って練習しましょう。
時々、Jupyter Notebook が読み込み終わるまで数秒待つ必要がある場合があります。Jupyter Notebook の制限により、操作の検証は自動化できません。
学習中に問題に遭遇した場合は、Labby にお問い合わせください。セッション後にフィードバックを提供してください。すぐに問題を解決いたします。
必要なライブラリのインポート
始める前に、必要なライブラリをインポートしましょう。この実験では NumPy と pandas が必要です。
## Import necessary libraries
import numpy as np
import pandas as pd
Series の作成
最初に見てみるデータ構造は Series で、1 次元のラベル付き配列です。整数、文字列、浮動小数点数、Python オブジェクトなど、あらゆるデータ型を保持できます。
## Create a Series
s = pd.Series([1, 3, 5, np.nan, 6, 8])
DataFrame の作成
もう 1 つの基本的なデータ構造は DataFrame です。これは、潜在的に異なる型の列を持つ 2 次元のラベル付きデータ構造です。
## Create a DataFrame
df = pd.DataFrame(np.random.randn(6, 4), columns=list('ABCD'))
DataFrame の列を操作する
DataFrame の列に対して様々な操作を行うことができます。たとえば、列を選択したり、新しい列を追加したり、列を削除したりすることができます。
## Select column A
df['A']
## Add a new column E
df['E'] = pd.Series(np.random.randn(6), index=df.index)
## Delete column B
del df['B']
データの整列と算術演算
データの整列は pandas の重要な機能です。2 つのオブジェクトに対して演算を行うとき、pandas は関連付けられたラベルに基づいてそれらを整列させます。
## Create two DataFrames
df1 = pd.DataFrame(np.random.randn(10, 4), columns=['A', 'B', 'C', 'D'])
df2 = pd.DataFrame(np.random.randn(7, 3), columns=['A', 'B', 'C'])
## Perform addition operation
result = df1 + df2
NumPy 関数を使用する
ほとんどの NumPy 関数は、Series オブジェクトと DataFrame オブジェクトに直接呼び出すことができ、データの操作と分析に非常に柔軟性があります。
## Apply the exponential function to a DataFrame
np.exp(df)
まとめ
この実験では、pandas の 2 つの基本的なデータ構造である Series と DataFrame について学びました。これらの構造を作成して操作する方法、およびそれらに直接 NumPy 関数を使用する方法を見てきました。また、データの整列という概念も探りました。これは、直感的なデータ操作と分析を可能にする pandas の強力な機能です。