Pandas データ操作の基本

PythonPythonBeginner
オンラインで実践に進む

This tutorial is from open-source community. Access the source code

💡 このチュートリアルは英語版からAIによって翻訳されています。原文を確認するには、 ここをクリックしてください

はじめに

この Python Pandas の実験では、Python における強力なデータ操作ツールである pandas ライブラリの基本操作を紹介します。この実験全体を通じて、多数の例とコードスニペットを使って pandas の理解を深めます。

VM のヒント

VM の起動が完了したら、左上隅をクリックしてノートブックタブに切り替え、Jupyter Notebook を使って練習しましょう。

時々、Jupyter Notebook が読み込み終わるまで数秒待つ必要があります。Jupyter Notebook の制限により、操作の検証は自動化できません。

学習中に問題に遭遇した場合は、Labby にお問い合わせください。セッション後にフィードバックを提供してください。すぐに問題を解決いたします。

pandas のインポート

まず、pandas ライブラリをインポートする必要があります。これは次のコマンドで行うことができます。

## Importing pandas library
import pandas as pd
import numpy as np

DataFrame の作成

次に、DataFrame を作成します。DataFrame は、潜在的に異なる型の列を持つ 2 次元のラベル付きデータ構造です。一般的に最もよく使われる pandas オブジェクトです。

## Creating a DataFrame with a dictionary
df = pd.DataFrame({'A': [1, 2, 3]})

DataFrame の理解

さて、ここで先ほど作成した DataFrame についてもう少し理解してみましょう。

## Displaying the DataFrame
print(df)

## Info about the DataFrame
df.info()

欠損値の処理

Pandas は、データのクリーニングと欠損値の埋め込みに様々なメソッドを提供しています。

## Creating a DataFrame with missing values
df = pd.DataFrame({'A': [1, 2, np.nan], 'B': [5, np.nan, np.nan], 'C': [1, 2, 3]})

## Filling missing values
df.fillna(value=0, inplace=True)

データ可視化

Pandas は、Matplotlib ライブラリとの統合を可能にすることでデータ可視化を提供します。

## Importing matplotlib library
import matplotlib.pyplot as plt

## Plotting a graph
df['A'].plot()
plt.show()

まとめ

この実験では、Python の pandas ライブラリの基本的な使い方について学びました。ライブラリのインポート、DataFrame の作成と操作、欠損値の処理、データの可視化などが含まれます。これらのスキルは、Python におけるデータ分析タスクの基礎であり、pandas に精通することで、効果的にデータを扱い分析することができます。