Pandas DataFrame 中位数方法

PythonPythonBeginner
立即练习

💡 本教程由 AI 辅助翻译自英文原版。如需查看原文,您可以 切换至英文原版

介绍

在本实验中,我们将学习如何使用 Pandas 库中的 median() 方法来计算 DataFrame 中值的中位数。median() 方法允许我们找到数据集中的中间值,从而提供一种衡量数据集中趋势的方法。

虚拟机使用提示

虚拟机启动完成后,点击左上角切换到 Notebook 标签页,以访问 Jupyter Notebook 进行练习。

有时,你可能需要等待几秒钟,直到 Jupyter Notebook 完成加载。由于 Jupyter Notebook 的限制,操作验证无法自动化。

如果你在学习过程中遇到问题,可以随时向 Labby 寻求帮助。请在实验结束后提供反馈,我们将及时为你解决问题。

导入 pandas 库

首先,我们需要导入 'pandas' 库,它通常用于数据操作和分析。

import pandas as pd

创建 DataFrame

接下来,我们将使用 pd.DataFrame() 构造函数创建一个 DataFrame 对象。这将允许我们存储和操作数据。

df = pd.DataFrame({"A": [0, 52, 78], "B": [77, 45, 96], "C": [16, 23, 135], "D": [17, 22, 56]})
print("------The DataFrame is------")
print(df)

沿索引轴计算中位数

要沿 DataFrame 的索引轴计算中位数,我们可以使用 median() 方法,并将 axis 参数设置为 0。

print("---------------------------")
print(df.median(axis=0))

沿列轴计算中位数

要沿 DataFrame 的列轴计算中位数,我们可以使用 median() 方法,并将 axis 参数设置为 1。

print("---------------------------")
print(df.median(axis=1))

处理空值

如果我们的 DataFrame 包含空值(null values),可以通过指定 skipna 参数来处理。默认情况下,skipna 设置为 True,即在计算中位数时排除空值。如果我们希望包含空值,可以将 skipna 设置为 False

df = pd.DataFrame({"A": [0, None, 78], "B": [77, 45, None], "C": [16, 23, None], "D": [17, 22, 56]})
print("------The DataFrame is------")
print(df)
print("---------------------------")
print(df.median(axis=0, skipna=False))

总结

在本实验中,我们学习了如何使用 Pandas 中的 median() 方法来计算 DataFrame 中值的中位数。我们探索了如何沿索引轴和列轴计算中位数。此外,我们还学习了在计算中位数时如何处理空值。计算中位数有助于理解数据集的集中趋势,并可用于在数据分析中做出明智的决策。