Pandas DataFrame 的 duplicated() 方法

PythonPythonBeginner
立即练习

💡 本教程由 AI 辅助翻译自英文原版。如需查看原文,您可以 切换至英文原版

介绍

在本实验中,我们将学习 Pandas 库中的 duplicated() 方法。duplicated() 方法用于在 DataFrame 中查找重复的行。

虚拟机提示

虚拟机启动完成后,点击左上角切换到 Notebook 标签页,以访问 Jupyter Notebook 进行练习。

有时,你可能需要等待几秒钟,直到 Jupyter Notebook 完成加载。由于 Jupyter Notebook 的限制,操作验证无法自动化。

如果你在学习过程中遇到问题,随时可以向 Labby 寻求帮助。实验结束后请提供反馈,我们将及时为你解决问题。

导入必要的库

首先,我们需要将 pandas 库导入为 pd

import pandas as pd

创建 DataFrame

接下来,让我们创建一个 DataFrame 来进行操作。我们将使用以下示例 DataFrame:

df = pd.DataFrame({'Name': ['Navya', 'Vindya', 'Navya', 'Vindya', 'Sinchana', 'Sinchana'],
                   'Skills': ['Python', 'Java', 'Python', 'Java', 'Java', 'Java']})

查找重复行

要查找 DataFrame 中的重复行,我们可以使用 duplicated() 方法。默认情况下,它会考虑所有列来识别重复项。它返回一个布尔 Series,其中 True 表示重复行,False 表示唯一行。

duplicates = df.duplicated()
print(duplicates)

指定列以识别重复项

如果我们只想考虑某些列来识别重复项,可以将列标签传递给 duplicated() 方法的 subset 参数。

duplicates_subset = df.duplicated(subset=['Skills'])
print(duplicates_subset)

指定重复标记方式

duplicated() 方法的 keep 参数决定了如何标记重复项。默认情况下,它设置为 'first',即除了第一次出现的重复项外,其他重复项均标记为 True。我们还可以将其设置为 'last'False,以不同的方式标记重复项。

duplicates_keep_last = df.duplicated(keep='last')
print(duplicates_keep_last)

duplicates_keep_false = df.duplicated(keep=False)
print(duplicates_keep_false)

总结

在本实验中,我们学习了如何使用 Pandas 中的 duplicated() 方法来查找 DataFrame 中的重复行。我们了解了如何基于特定列识别重复项、指定重复标记方式,并获取表示重复行的布尔 Series。duplicated() 方法是数据清理和识别重复数据的有用工具。