Pandas DataFrame の info メソッド

Beginner

はじめに

Python の Pandas ライブラリのinfo()メソッドは、DataFrame の要約を取得するために使用されます。これは、DataFrame のインデックスのデータ型と列、非 null 値、およびメモリ使用量など、DataFrame に関する貴重な情報を提供します。

VM のヒント

VM の起動が完了した後、画面の左上隅をクリックしてノートブックタブに切り替え、Jupyter Notebook を使った練習を行います。

時々、Jupyter Notebook が読み込み終了するまで数秒待つ必要がある場合があります。Jupyter Notebook の制限により、操作の検証を自動化することはできません。

学習中に問題に遭遇した場合は、Labby にお問い合わせください。セッション後にフィードバックを提供してください。そうすれば、迅速に問題を解決します。

必要なライブラリをインポートする

まず、Python における強力なデータ操作ライブラリである pandas ライブラリをインポートする必要があります。

import pandas as pd

DataFrame を作成する

次に、DataFrame を作成する必要があります。これは、pd.DataFrame()関数を使用してデータの辞書を渡すことで行うことができます。

int_values = [1, 2, 3, 4, 5]
text_values = ['alpha', 'beta', 'gamma', 'delta', 'epsilon']
float_values = [0.0, 0.25, 0.5, 0.75, 1.0]
df = pd.DataFrame({"int_col": int_values, "text_col": text_values, "float_col": float_values})

info() メソッドを使用する

これで DataFrame ができたので、要約情報を取得するためにinfo()メソッドを使用できます。デフォルトでは、info()メソッドは DataFrame の完全な要約を表示します。

df.info()

出力を分析する

コードを実行した後、各列のデータ型、非 null 値の数、およびメモリ使用量など、DataFrame に関する要約情報が表示されます。以下は出力の例です:

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5 entries, 0 to 4
Data columns (total 3 columns):
 ##   Column    Non-Null Count  Dtype
---  ------    --------------  -----
 0   int_col   5 non-null      int64
 1   text_col  5 non-null      object
 2   float_col 5 non-null      float64
dtypes: float64(1), int64(1), object(1)
memory usage: 248.0+ bytes

まとめ

Python の Pandas ライブラリにあるinfo()メソッドは、DataFrame の迅速な要約を取得するための便利なメソッドです。インデックスのデータ型と列、非 null 値、およびメモリ使用量に関する情報を提供します。デフォルトでは、完全な要約が表示されますが、パラメータを変更して出力をカスタマイズすることもできます。このメソッドは、特に大規模なデータセットを扱う際に、DataFrame の構造を理解するのに役立ちます。info()から得られた情報を使って、データのクリーニング、操作、および分析に関する適切な判断を下すことができます。