Pandas DataFrame 内存使用方法

Beginner

介绍

在本实验中,我们将学习如何在 Python Pandas 中使用 DataFrame.memory_usage() 方法。该方法允许我们计算 DataFrame 中每一列的内存使用情况。我们将通过示例逐步讲解如何使用此方法。

虚拟机提示

虚拟机启动完成后,点击左上角切换到 Notebook 选项卡以访问 Jupyter Notebook 进行练习。

有时,你可能需要等待几秒钟,直到 Jupyter Notebook 完成加载。由于 Jupyter Notebook 的限制,操作验证无法自动化。

如果你在学习过程中遇到问题,随时可以向 Labby 提问。实验结束后请提供反馈,我们将及时为你解决问题。

导入必要的库并创建 DataFrame

  • 在开始之前,我们先导入 pandas 库并创建一个 DataFrame。
  • 使用一些示例数据创建一个 DataFrame。
## 导入 pandas 库
import pandas as pd

## 创建 DataFrame
df = pd.DataFrame({'Name': ['Abhishek', 'Anurag', 'Divya'],
                   'Roll No': [100, 101, 104]})

查看 DataFrame 并计算内存使用情况

  • 现在,让我们查看创建的 DataFrame,并使用 DataFrame.memory_usage() 方法计算其内存使用情况。
## 查看 DataFrame
print("----------The DataFrame is---------")
print(df)
print("-----------------------------------")

## 计算内存使用情况
print(df.memory_usage())

在内存使用计算中排除索引

  • 默认情况下,DataFrame.memory_usage() 方法会包含 DataFrame 索引的内存使用情况。如果我们希望在内存使用计算中排除索引,可以将 index 参数设置为 False
## 计算内存使用情况(排除索引)
print(df.memory_usage(index=False))

获取整体内存消耗

  • 我们还可以通过结合使用 DataFrame.memory_usage() 方法和 sum() 函数来获取 DataFrame 列的整体内存消耗。
## 获取整体内存消耗
print(df.memory_usage(index=False).sum())

总结

在本实验中,我们学习了如何在 Python Pandas 中使用 DataFrame.memory_usage() 方法。该方法允许我们计算 DataFrame 中每一列的内存使用情况。我们可以根据需求在内存使用计算中包含或排除索引,还可以获取 DataFrame 列的整体内存消耗。了解 DataFrame 的内存使用情况有助于优化代码并提高性能。