Pandas 入門とセットアップ

PandasBeginner
オンラインで実践に進む

はじめに

Python によるデータ分析の世界へようこそ!この実験では、Python における最も人気があり強力なオープンソースのデータ操作・分析ライブラリである Pandas をご紹介します。

このコースを開始する前に、基本的な Python プログラミングスキルを持っていること、およびシステム PATH に Python が正しく設定されていることを確認してください。まだ Python を学習していない場合は、当社の Python 学習パス から始めることができます。さらに、Pandas の操作には NumPy が不可欠な前提条件であるため、NumPy がインストールされている必要があります。NumPy を学習する必要がある場合は、当社の NumPy 学習パス を参照してください。

Pandas は、高性能で使いやすいデータ構造とデータ分析ツールを提供します。Pandas の 2 つの主要なデータ構造は、Series(1 次元)と DataFrame(2 次元)です。

この実験では、すぐに始められるようにするための絶対的な基本を学びます。以下のことを行います。

  • 環境に Pandas がインストールされていることを確認します。
  • Python スクリプトに Pandas ライブラリをインポートします。
  • 最初の Pandas Series オブジェクトを作成します。
  • Series 内のデータにアクセスします。
  • Series の基本的なプロパティを検査します。

この実験は初心者向けに設計されており、Pandas に関する事前の知識は必要ありません。さあ、始めましょう!

pip を使用して Pandas をインストールする

このステップでは、環境に pandas が正しくインストールされていることを確認します。LabEx 環境には、時間の節約のために Python と Pandas がプリインストールされています。これを自分で確認し、バージョンをチェックすることができます。

インストールされている Python パッケージの詳細を確認するには、pip show コマンドを使用できます。pip は Python のパッケージインストーラーです。

ターミナルを開き、インストールされている pandas パッケージに関する情報を表示するために、次のコマンドを実行してください。

pip show pandas
Terminal output showing pandas installation details

パッケージの名前、バージョン、概要、および場所の詳細が表示されるはずです。バージョンは 2.2.2 またはそれに類似したものであるべきです。

Name: pandas
Version: 2.2.2
Summary: Powerful data structures for data analysis, time series, and statistics
Home-page: https://pandas.pydata.org
Author: The Pandas Development Team
Author-email: pandas-dev@python.org
License: BSD-3-Clause
Location: /usr/local/lib/python3.10/dist-packages
Requires: numpy, python-dateutil, pytz, tzdata
Required-by:

これにより、Python スクリプトで pandas を使用する準備が整ったことが確認できます。

Pandas を pd としてインポートする

このステップでは、Pandas ライブラリをインポートするための最初の Python コードを記述します。慣例として、Pandas はエイリアス pd でインポートされます。これにより、コードが短く、より読みやすくなります。

WebIDE の左側のファイルエクスプローラーには、main.py という名前のファイルが表示されます。このファイルはあなたのために作成されました。それをクリックしてエディタで開いてください。

次に、pandas をインポートして確認メッセージを表示するために、main.py に次のコードを追加します。

import pandas as pd

print("Pandas imported successfully!")
  • import pandas as pd: この行は、Python に Pandas ライブラリをロードし、エイリアス pd を与えるように指示します。今後、Pandas の関数やオブジェクトには pd. を使用してアクセスできます。
  • print(...): これは、ターミナルに出力を表示するための標準的な Python 関数です。
Python code to import pandas and print confirmation

スクリプトを実行するには、ターミナルに移動し、次のコマンドを実行します。

python main.py

ターミナルに確認メッセージが表示されるはずです。

Pandas imported successfully!

これにより、Python スクリプトが Pandas ライブラリを正常にインポートして使用できることが確認できます。

リストからシンプルな Series を作成する

このステップでは、最初の Pandas Series を作成します。Series は、整数、文字列、浮動小数点数などの任意のデータ型を保持できる、一次元のアレイのようなオブジェクトです。これは Pandas におけるデータの基本的な構成要素です。

Python のリストを pd.Series() コンストラクタに渡すことで Series を作成できます。

main.py ファイルを変更します。前の print ステートメントを、Series を作成して表示するための次のコードに置き換えてください。

import pandas as pd

## A Python list of numbers
data = [10, 20, 30, 40, 50]

## Create a Pandas Series from the list
s = pd.Series(data)

## Print the Series
print(s)

提案: 上記のコードをコードエディタにコピーし、各コード行を注意深く読んでその機能を理解してください。さらに詳しい説明が必要な場合は、「コードの説明」ボタン 👆 をクリックできます。Labby と対話して、パーソナライズされたヘルプを得ることができます。

  • data = [...]: まず、整数のシンプルな Python リストを定義します。
  • s = pd.Series(data): pd (Pandas) ライブラリから Series コンストラクタを呼び出し、リストを渡します。これにより Series オブジェクトが作成されます。

次に、ターミナルからスクリプトを再度実行します。

python main.py

出力には、作成した Series が表示されます。左側のインデックス(0〜4)と右側の値(10〜50)の 2 つの列があることに注意してください。インデックスが指定されていない場合、Pandas はデフォルトの整数インデックスを自動的に作成します。

0    10
1    20
2    30
3    40
4    50
dtype: int64

インデックスで Series の要素にアクセスする

このステップでは、作成した Series から個々の要素または要素のサブセットにアクセスする方法を学びます。データのアクセスは、データ分析における基本的な操作です。Python のリストと同様に、インデックスを使用して Series の要素にアクセスできます。

main.py を変更して、特定の要素にアクセスし、それらを表示してみましょう。最初の要素(インデックス 0)と要素のスライスにアクセスします。

main.py ファイルを次のコードで更新してください。シリーズ全体を表示する行の後に、新しい print ステートメントを追加します。

import pandas as pd

data = [10, 20, 30, 40, 50]
s = pd.Series(data)

print("The full Series:")
print(s)

## Access the first element (at index 0)
print("\nFirst element:", s[0])

## Access a slice of elements (from index 1 up to, but not including, 3)
print("\nElements from index 1 to 2:")
print(s[1:3])
  • s[0]: これはインデックス 0 の値、つまり 10 を取得します。
  • s[1:3]: これはスライシングと呼ばれます。インデックス 1 から始まり、インデックス 3 の直前までの要素を取得します。これにより、インデックス 12 の要素が得られます。

スクリプトを実行して結果を確認します。

python main.py

出力には、完全な Series の後に、アクセスした特定の要素が表示されるはずです。

The full Series:
0    10
1    20
2    30
3    40
4    50
dtype: int64

First element: 10

Elements from index 1 to 2:
1    20
2    30
dtype: int64

Series のデータ型と形状を表示する

このステップでは、Series の 2 つの重要なプロパティ、データ型 (dtype) と形状 (shape) を確認する方法を学びます。これらの属性を理解することは、デバッグやデータ検証において非常に重要です。

  • dtype: この属性は、Series に格納されている値のデータ型(例:整数なら int64、浮動小数点数なら float64、文字列なら object)を示します。
  • shape: この属性は、Series の次元を表すタプルを返します。一次元である Series の場合、要素数 n を持つ単一の値 (n,) のタプルになります。

main.py を更新して、これらの 2 つの属性を表示してみましょう。スクリプトの末尾に次の行を追加してください。

import pandas as pd

data = [10, 20, 30, 40, 50]
s = pd.Series(data)

## ... (以前の print ステートメントは削除または保持できます)

## Print the data type of the Series
print("\nData type:", s.dtype)

## Print the shape of the Series
print("Shape:", s.shape)

これで、スクリプトを最後に実行します。

python main.py

出力には、Series のデータ型と形状が含まれるようになります。

Data type: int64
Shape: (5,)

これにより、Series が 64 ビット整数を含み、5 つの要素を持つことがわかります。

まとめ

おめでとうございます!Pandas に関するこの入門ラボを無事に完了しました。

このラボでは、この強力なライブラリを扱うための基本的な最初のステップを学びました。以下のことを行いました。

  • 環境での pandas のインストールを確認しました。
  • 標準的なエイリアス pd を使用して、Python スクリプトに pandas ライブラリをインポートしました。
  • Python リストから基本的な一次元 Series を作成しました。
  • インデックス作成とスライシングを使用して Series から要素にアクセスしました。
  • dtype および shape 属性を検査して、Series の構造とデータ型を理解しました。

これらは、DataFrame のようなより複雑なデータ構造に進み、より高度なデータ分析タスクを実行する際に必要となる基本的な構成要素です。引き続き練習しましょう!