Pandas DataFrame 的 info() 方法

PythonPythonBeginner
立即练习

💡 本教程由 AI 辅助翻译自英文原版。如需查看原文,您可以 切换至英文原版

介绍

Python Pandas 库中的 info() 方法用于获取 DataFrame 的摘要信息。它提供了有关 DataFrame 的宝贵信息,包括索引数据类型(dtype)和列、非空值以及内存使用情况。

虚拟机使用提示

虚拟机启动完成后,点击左上角切换到 Notebook 标签页,以访问 Jupyter Notebook 进行练习。

有时,你可能需要等待几秒钟,直到 Jupyter Notebook 完成加载。由于 Jupyter Notebook 的限制,操作验证无法自动化。

如果你在学习过程中遇到问题,随时可以向 Labby 提问。在实验结束后提供反馈,我们将及时为你解决问题。

导入必要的库

首先,我们需要导入 pandas 库,它是 Python 中一个强大的数据操作库。

import pandas as pd

创建 DataFrame

接下来,我们需要创建一个 DataFrame。可以通过使用 pd.DataFrame() 函数并传入一个数据字典来实现。

int_values = [1, 2, 3, 4, 5]
text_values = ['alpha', 'beta', 'gamma', 'delta', 'epsilon']
float_values = [0.0, 0.25, 0.5, 0.75, 1.0]
df = pd.DataFrame({"int_col": int_values, "text_col": text_values, "float_col": float_values})

使用 info() 方法

现在我们已经有了 DataFrame,可以使用 info() 方法来获取摘要信息。默认情况下,info() 方法会打印 DataFrame 的完整摘要。

df.info()

分析输出

运行代码后,你将看到关于 DataFrame 的摘要信息,包括每列的数据类型、非空值的数量以及内存使用情况。以下是一个示例输出:

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5 entries, 0 to 4
Data columns (total 3 columns):
 ##   Column    Non-Null Count  Dtype
---  ------    --------------  -----
 0   int_col   5 non-null      int64
 1   text_col  5 non-null      object
 2   float_col 5 non-null      float64
dtypes: float64(1), int64(1), object(1)
memory usage: 248.0+ bytes

总结

Python Pandas 库中的 info() 方法是一个非常有用的方法,可以快速获取 DataFrame 的摘要信息。它提供了关于索引数据类型、列、非空值以及内存使用情况的信息。默认情况下,它会显示完整的摘要,但你也可以通过修改参数来自定义输出。此方法有助于理解 DataFrame 的结构,尤其是在处理大型数据集时。通过从 info() 中获取的信息,你可以对数据清理、操作和分析做出明智的决策。