Pandas データ操作の基本

Beginner

This tutorial is from open-source community. Access the source code

はじめに

この Python Pandas の実験では、Python における強力なデータ操作ツールである pandas ライブラリの基本操作を紹介します。この実験全体を通じて、多数の例とコードスニペットを使って pandas の理解を深めます。

VM のヒント

VM の起動が完了したら、左上隅をクリックしてノートブックタブに切り替え、Jupyter Notebook を使って練習しましょう。

時々、Jupyter Notebook が読み込み終わるまで数秒待つ必要があります。Jupyter Notebook の制限により、操作の検証は自動化できません。

学習中に問題に遭遇した場合は、Labby にお問い合わせください。セッション後にフィードバックを提供してください。すぐに問題を解決いたします。

pandas のインポート

まず、pandas ライブラリをインポートする必要があります。これは次のコマンドで行うことができます。

## Importing pandas library
import pandas as pd
import numpy as np

DataFrame の作成

次に、DataFrame を作成します。DataFrame は、潜在的に異なる型の列を持つ 2 次元のラベル付きデータ構造です。一般的に最もよく使われる pandas オブジェクトです。

## Creating a DataFrame with a dictionary
df = pd.DataFrame({'A': [1, 2, 3]})

DataFrame の理解

さて、ここで先ほど作成した DataFrame についてもう少し理解してみましょう。

## Displaying the DataFrame
print(df)

## Info about the DataFrame
df.info()

欠損値の処理

Pandas は、データのクリーニングと欠損値の埋め込みに様々なメソッドを提供しています。

## Creating a DataFrame with missing values
df = pd.DataFrame({'A': [1, 2, np.nan], 'B': [5, np.nan, np.nan], 'C': [1, 2, 3]})

## Filling missing values
df.fillna(value=0, inplace=True)

データ可視化

Pandas は、Matplotlib ライブラリとの統合を可能にすることでデータ可視化を提供します。

## Importing matplotlib library
import matplotlib.pyplot as plt

## Plotting a graph
df['A'].plot()
plt.show()

まとめ

この実験では、Python の pandas ライブラリの基本的な使い方について学びました。ライブラリのインポート、DataFrame の作成と操作、欠損値の処理、データの可視化などが含まれます。これらのスキルは、Python におけるデータ分析タスクの基礎であり、pandas に精通することで、効果的にデータを扱い分析することができます。