Pandas を使ったデータ分析のマスター

はじめに

Pandas は、Python で開発された強力なデータ操作ツールです。柔軟性と使いやすさがあるため、データ分析やクリーニングで頻繁に使用されます。この実験では、Pandas を使ってデータの読み込み、データフレームの作成、データのアクセス、および単純な統計処理などの基本操作を行う方法を学びます。

VM のヒント

VM の起動が完了したら、左上隅をクリックして Notebook タブに切り替え、Jupyter Notebook を使って練習しましょう。

時々、Jupyter Notebook が読み込み完了するまで数秒待つ必要がある場合があります。Jupyter Notebook の制限により、操作の検証は自動化できません。

学習中に問題が発生した場合は、Labby にお問い合わせください。セッション後にフィードバックを提供してください。すぐに問題を解決いたします。

これは Guided Lab です。学習と実践を支援するためのステップバイステップの指示を提供します。各ステップを完了し、実践的な経験を積むために、指示に注意深く従ってください。過去のデータによると、この初級レベルの実験の完了率は 86%です。学習者から 100% の好評価を得ています。

Pandas パッケージをインポートする

Pandas を使用する前に、インポートする必要があります。Pandas をエイリアス pd でインポートするのが一般的な方法です。

## Importing pandas package
import pandas as pd

データフレームを作成する

pandas のデータはデータフレームに格納されます。これは、列が異なる型である可能性のある 2 次元のラベル付きデータ構造です。

## Creating a DataFrame
df = pd.DataFrame(
    {
        "Name": [
            "Braund, Mr. Owen Harris",
            "Allen, Mr. William Henry",
            "Bonnell, Miss. Elizabeth",
        ],
        "Age": [22, 35, 58],
        "Sex": ["male", "male", "female"],
    }
)

列を選択する

特定の列のデータを操作したい場合は、列ラベルを使用して選択できます。結果は pandas の Series になります。

## Selecting the 'Age' column
df["Age"]

基本的な統計を行う

Pandas には、統計を行うための多くの機能が用意されています。たとえば、max() を使用して列の最大値を求めることができます。

## Finding the maximum age
df["Age"].max()

また、describe() を使用することで、DataFrame 内の数値データの概要をすばやく把握することができます。

## Describing the numerical data
df.describe()

まとめ

この実験では、Pandas パッケージをインポートし、データフレームを作成し、列を選択し、基本的な統計を行う方法を学びました。Pandas は、さまざまな種類のデータを扱える多用途のツールであり、データ分析と操作に最適な選択肢の 1 つです。

Pandas を使った作業