Pandas DataFrame の Nunique メソッド

Beginner

はじめに

この実験では、Python の pandas のDataFrame.nunique()メソッドについて学びます。このメソッドは、pandas の DataFrame 内の一意なまたは異なる観測値の数をカウントするために使用されます。

VM のヒント

VM の起動が完了したら、左上隅をクリックしてノートブックタブに切り替え、Jupyter Notebook を使って練習しましょう。

時々、Jupyter Notebook が読み込み終了するまで数秒待つ必要がある場合があります。Jupyter Notebook の制限により、操作の検証を自動化することはできません。

学習中に問題に遭遇した場合は、Labby にお問い合わせください。セッション後にフィードバックを提供してください。すぐに問題を解決いたします。

pandas ライブラリをインポートする

始める前に、データの操作と分析に使用される pandas ライブラリをインポートする必要があります。次のコードを使用してインポートできます。

import pandas as pd

DataFrame を作成する

使うサンプルの DataFrame を作成しましょう。3 つの列 A、B、C と 3 行のデータを持つ DataFrame を作成するために、pd.DataFrame()関数を使用します。各列にはいくつかの重複値が含まれます。

df = pd.DataFrame({'A': [1, 2, 3], 'B': [1, 1, 1], 'C': [2, 5, 5]})

DataFrame 内の一意な値をカウントする

次に、DataFrame.nunique()メソッドを使って、DataFrame 内の一意な値の数をカウントしましょう。一意な値をインデックス軸(列)に対してカウントするには、axis パラメータを「0」と指定し、列軸(行)に対して一意な値をカウントするには「1」と指定します。

print("各列における一意な値の数:")
print(df.nunique(axis=0))

print("各行における一意な値の数:")
print(df.nunique(axis=1))

null 値を処理する

既定では、DataFrame.nunique()メソッドはカウントに欠損値を含みません。列に欠損値が含まれている場合、それは「0」としてカウントされます。いくつかの欠損値を含む別の DataFrame を作成し、再度一意な値をカウントしましょう。

df = pd.DataFrame({'A': [1, None, 3], 'B': [1, None, 1], 'C': [2, None, 5]})

null 値を含む一意な値をカウントする

この新しい DataFrame の一意な値を、欠損値も含めてカウントしましょう。

print("欠損値を含む各行における一意な値の数:")
print(df.nunique(axis=1))

まとめ

この実験では、pandas のDataFrame.nunique()メソッドを使って DataFrame 内の一意な値の数をカウントする方法を学びました。また、欠損値を処理して欠損値も含めた一意な値をカウントする方法も学びました。この方法は、データセットの分析や DataFrame 内の値の分布を理解するのに役立ちます。