Python Pandas | DataFrame 内存使用 | 数据分析教程

介绍

在本实验中，我们将学习如何在 Python Pandas 中使用 DataFrame.memory_usage() 方法。该方法允许我们计算 DataFrame 中每一列的内存使用情况。我们将通过示例逐步讲解如何使用此方法。

虚拟机提示

虚拟机启动完成后，点击左上角切换到 Notebook 选项卡以访问 Jupyter Notebook 进行练习。

有时，你可能需要等待几秒钟，直到 Jupyter Notebook 完成加载。由于 Jupyter Notebook 的限制，操作验证无法自动化。

如果你在学习过程中遇到问题，随时可以向 Labby 提问。实验结束后请提供反馈，我们将及时为你解决问题。

导入必要的库并创建 DataFrame

在开始之前，我们先导入 pandas 库并创建一个 DataFrame。
使用一些示例数据创建一个 DataFrame。

## 导入 pandas 库
import pandas as pd

## 创建 DataFrame
df = pd.DataFrame({'Name': ['Abhishek', 'Anurag', 'Divya'],
                   'Roll No': [100, 101, 104]})

查看 DataFrame 并计算内存使用情况

现在，让我们查看创建的 DataFrame，并使用 DataFrame.memory_usage() 方法计算其内存使用情况。

## 查看 DataFrame
print("----------The DataFrame is---------")
print(df)
print("-----------------------------------")

## 计算内存使用情况
print(df.memory_usage())

在内存使用计算中排除索引

默认情况下，DataFrame.memory_usage() 方法会包含 DataFrame 索引的内存使用情况。如果我们希望在内存使用计算中排除索引，可以将 index 参数设置为 False。

## 计算内存使用情况（排除索引）
print(df.memory_usage(index=False))

获取整体内存消耗

我们还可以通过结合使用 DataFrame.memory_usage() 方法和 sum() 函数来获取 DataFrame 列的整体内存消耗。

## 获取整体内存消耗
print(df.memory_usage(index=False).sum())

总结

在本实验中，我们学习了如何在 Python Pandas 中使用 DataFrame.memory_usage() 方法。该方法允许我们计算 DataFrame 中每一列的内存使用情况。我们可以根据需求在内存使用计算中包含或排除索引，还可以获取 DataFrame 列的整体内存消耗。了解 DataFrame 的内存使用情况有助于优化代码并提高性能。

Pandas DataFrame 内存使用方法

介绍

虚拟机提示

导入必要的库并创建 DataFrame

查看 DataFrame 并计算内存使用情况

在内存使用计算中排除索引

获取整体内存消耗

总结