Pandas のデータ構造をマスターする

はじめに

Pandas は、データの操作と分析に強力な Python ライブラリです。その基本的なデータ構造である Series と DataFrame を使って、構造化データを格納し操作することができます。この実験では、これらのデータ構造を作成から操作、整列までどのように扱うかについての手順を示します。

VM のヒント

VM の起動が完了したら、左上隅をクリックして Notebook タブに切り替え、Jupyter Notebook を使って練習しましょう。

時々、Jupyter Notebook が読み込み終わるまで数秒待つ必要がある場合があります。Jupyter Notebook の制限により、操作の検証は自動化できません。

学習中に問題に遭遇した場合は、Labby にお問い合わせください。セッション後にフィードバックを提供してください。すぐに問題を解決いたします。

必要なライブラリのインポート

始める前に、必要なライブラリをインポートしましょう。この実験では NumPy と pandas が必要です。

## Import necessary libraries
import numpy as np
import pandas as pd

Series の作成

最初に見てみるデータ構造は Series で、1 次元のラベル付き配列です。整数、文字列、浮動小数点数、Python オブジェクトなど、あらゆるデータ型を保持できます。

## Create a Series
s = pd.Series([1, 3, 5, np.nan, 6, 8])

DataFrame の作成

もう 1 つの基本的なデータ構造は DataFrame です。これは、潜在的に異なる型の列を持つ 2 次元のラベル付きデータ構造です。

## Create a DataFrame
df = pd.DataFrame(np.random.randn(6, 4), columns=list('ABCD'))

DataFrame の列を操作する

DataFrame の列に対して様々な操作を行うことができます。たとえば、列を選択したり、新しい列を追加したり、列を削除したりすることができます。

## Select column A
df['A']

## Add a new column E
df['E'] = pd.Series(np.random.randn(6), index=df.index)

## Delete column B
del df['B']

データの整列と算術演算

データの整列は pandas の重要な機能です。2 つのオブジェクトに対して演算を行うとき、pandas は関連付けられたラベルに基づいてそれらを整列させます。

## Create two DataFrames
df1 = pd.DataFrame(np.random.randn(10, 4), columns=['A', 'B', 'C', 'D'])
df2 = pd.DataFrame(np.random.randn(7, 3), columns=['A', 'B', 'C'])

## Perform addition operation
result = df1 + df2

NumPy 関数を使用する

ほとんどの NumPy 関数は、Series オブジェクトと DataFrame オブジェクトに直接呼び出すことができ、データの操作と分析に非常に柔軟性があります。

## Apply the exponential function to a DataFrame
np.exp(df)

まとめ

この実験では、pandas の 2 つの基本的なデータ構造である Series と DataFrame について学びました。これらの構造を作成して操作する方法、およびそれらに直接 NumPy 関数を使用する方法を見てきました。また、データの整列という概念も探りました。これは、直感的なデータ操作と分析を可能にする pandas の強力な機能です。

Pandas のデータ構造の操作