Pandas DataFrame 箱线图方法

PythonPythonBeginner
立即练习

💡 本教程由 AI 辅助翻译自英文原版。如需查看原文,您可以 切换至英文原版

介绍

在本实验中,你将学习如何使用 Pandas 库中的 boxplot() 方法从 DataFrame 列创建箱线图。箱线图,也称为盒须图,是一种图形表示方法,用于展示数据集的五数概括:最小值、第一四分位数、中位数、第三四分位数和最大值。

虚拟机使用提示

虚拟机启动完成后,点击左上角切换到 Notebook 标签页,以访问 Jupyter Notebook 进行练习。

有时,你可能需要等待几秒钟,直到 Jupyter Notebook 完成加载。由于 Jupyter Notebook 的限制,操作验证无法自动化。

如果你在学习过程中遇到问题,随时可以向 Labby 寻求帮助。请在实验结束后提供反馈,我们将及时为你解决问题。

导入必要的库

首先,你需要导入必要的库。在本实验中,你将使用 Pandas 库。

import pandas as pd

创建 DataFrame

接下来,你将创建一个 DataFrame 用于操作。可以通过将字典或列表的列表传递给 pd.DataFrame() 函数来实现。在这个示例中,我们将创建一个包含学生不同科目成绩的 DataFrame。

df = pd.DataFrame([
    ['Abhishek', 75, 80, 90],
    ['Anurag', 80, 90, 95],
    ['Bavya', 80, 82, 85],
    ['Bavana', 95, 92, 92],
    ['Chetan', 85, 90, 89]
], columns=['Name', 'Maths', 'Science', 'Social'])

生成箱线图

现在,你可以使用 boxplot() 方法从 DataFrame 列生成箱线图。可以通过将列名作为列表传递给 column 参数来实现。例如,为 'Social' 列创建箱线图:

boxplot = df.boxplot(column=['Social'])

boxplot() 方法返回一个 Axes 对象,如果需要,可以进一步自定义图表。

自定义箱线图

你可以通过使用 boxplot() 方法中的各种参数来自定义箱线图的外观。例如,可以使用 fontsize 参数调整刻度标签的字体大小,使用 rot 参数旋转标签,以及使用 grid 参数显示或隐藏网格。

boxplot = df.boxplot(column=['Social'], fontsize=12, rot=45, grid=True)

分组数据并创建多个箱线图

如果你想比较不同组之间的数据,可以使用 by 参数根据特定列对数据进行分组。例如,为按 'DOB' 列分组的 'Social' 列创建箱线图:

boxplot = df.boxplot(column=['Social'], by='DOB')

这将为 'DOB' 列中的每个值生成一个单独的箱线图。

总结

在本实验中,你学习了如何使用 Pandas 库中的 boxplot() 方法从 DataFrame 列创建箱线图。你学习了如何自定义箱线图的外观,以及如何对数据进行分组以创建多个箱线图。箱线图是一种有用的可视化工具,用于理解数据的分布和变异性。它们提供了包含中位数、四分位数以及数据集中任何异常值等信息的视觉摘要。这有助于识别数据中的趋势、模式和异常。