Pandas DataFrame 删除重复行方法

Beginner

介绍

在本实验中,我们将学习如何在 Pandas DataFrame 中使用 drop_duplicates() 方法来删除重复行。我们将通过示例逐步讲解如何使用该方法。

虚拟机使用提示

虚拟机启动完成后,点击左上角切换到 Notebook 标签页,以访问 Jupyter Notebook 进行练习。

有时,你可能需要等待几秒钟,直到 Jupyter Notebook 完成加载。由于 Jupyter Notebook 的限制,操作验证无法自动化。

如果你在学习过程中遇到问题,可以随时向 Labby 寻求帮助。实验结束后请提供反馈,我们将及时为你解决问题。

导入所需的库

首先,我们需要导入所需的库。在本实验中,我们将使用 Pandas 库。

import pandas as pd

创建一个 DataFrame

接下来,我们需要创建一个包含重复行的 DataFrame。我们将使用 pd.DataFrame() 函数来创建 DataFrame。

df = pd.DataFrame({'Name': ['Navya', 'Vindya', 'Navya', 'Vindya', 'Sinchana', 'Sinchana'],
                   'Skills': ['Python', 'Java', 'Python', 'Java', 'Java', 'Java']})
print(df)

删除重复行

现在,我们可以使用 drop_duplicates() 方法从 DataFrame 中删除重复行。该方法将返回一个删除了重复行的新 DataFrame。

df = df.drop_duplicates()
print("After removing duplicate rows:")
print(df)

总结

在本实验中,我们学习了如何在 Pandas DataFrame 中使用 drop_duplicates() 方法来删除重复行。通过指定要考虑的列或要保留的重复项,我们可以自定义该方法处理重复项的方式。

通过遵循这些步骤,你可以有效地使用 drop_duplicates() 方法从 Pandas DataFrame 中删除重复行。