Pandas DataFrame のメモリ使用量メソッド

Beginner

はじめに

この実験では、Python Pandas の DataFrame.memory_usage() メソッドの使い方を学びます。このメソッドを使うと、DataFrame の各列のメモリ使用量を算出できます。このメソッドの使い方について、手順を追って例を挙げながら説明します。

VM のヒント

VM の起動が完了したら、画面の左上隅をクリックして Notebook タブに切り替え、Jupyter Notebook を使って練習しましょう。

Jupyter Notebook の読み込みには数秒かかる場合があります。Jupyter Notebook の制限により、操作の検証を自動化することはできません。

学習中に問題があった場合は、Labby にお問い合わせください。セッション終了後にフィードバックを提供してください。すぐに問題を解決いたします。

必要なライブラリをインポートして DataFrame を作成する

  • 始める前に、pandas ライブラリをインポートして DataFrame を作成しましょう。
  • サンプル データを使って DataFrame を作成します。
## Import pandas library
import pandas as pd

## Create a DataFrame
df = pd.DataFrame({'Name': ['Abhishek', 'Anurag', 'Divya'],
                   'Roll No': [100, 101, 104]})

DataFrame を表示してメモリ使用量を計算する

  • では、作成した DataFrame を表示し、DataFrame.memory_usage() メソッドを使ってそのメモリ使用量を算出しましょう。
## View the DataFrame
print("----------The DataFrame is---------")
print(df)
print("-----------------------------------")

## Calculate memory usage
print(df.memory_usage())

メモリ使用量の計算からインデックスを除外する

  • デフォルトでは、DataFrame.memory_usage() メソッドは DataFrame のインデックスによるメモリ使用量も含みます。インデックスをメモリ使用量の計算から除外したい場合は、index パラメータを False に設定できます。
## Calculate memory usage excluding index
print(df.memory_usage(index=False))

全体のメモリ消費量を取得する

  • DataFrame.memory_usage() メソッドと sum() 関数を併用することで、DataFrame の列全体のメモリ消費量を取得することもできます。
## Get overall memory consumption
print(df.memory_usage(index=False).sum())

まとめ

この実験では、Python Pandas の DataFrame.memory_usage() メソッドの使い方を学びました。このメソッドを使うと、DataFrame の各列のメモリ使用量を算出できます。必要に応じて、メモリ使用量の計算にインデックスを含めるか除外することができ、また DataFrame の列全体のメモリ消費量も取得できます。DataFrame のメモリ使用量を理解することは、コードの最適化やパフォーマンスの向上に役立ちます。