Pandas DataFrame 删除重复行方法

PythonPythonBeginner
立即练习

💡 本教程由 AI 辅助翻译自英文原版。如需查看原文,您可以 切换至英文原版

介绍

在本实验中,我们将学习如何在 Pandas DataFrame 中使用 drop_duplicates() 方法来删除重复行。我们将通过示例逐步讲解如何使用该方法。

虚拟机使用提示

虚拟机启动完成后,点击左上角切换到 Notebook 标签页,以访问 Jupyter Notebook 进行练习。

有时,你可能需要等待几秒钟,直到 Jupyter Notebook 完成加载。由于 Jupyter Notebook 的限制,操作验证无法自动化。

如果你在学习过程中遇到问题,可以随时向 Labby 寻求帮助。实验结束后请提供反馈,我们将及时为你解决问题。


Skills Graph

%%%%{init: {'theme':'neutral'}}%%%% flowchart RL pandas(("Pandas")) -.-> pandas/ReadingDataGroup(["Reading Data"]) pandas(("Pandas")) -.-> pandas/DataCleaningGroup(["Data Cleaning"]) python(("Python")) -.-> python/ModulesandPackagesGroup(["Modules and Packages"]) python(("Python")) -.-> python/PythonStandardLibraryGroup(["Python Standard Library"]) python(("Python")) -.-> python/DataScienceandMachineLearningGroup(["Data Science and Machine Learning"]) pandas/ReadingDataGroup -.-> pandas/read_csv("Read CSV") pandas/ReadingDataGroup -.-> pandas/read_excel("Read Excel") pandas/DataCleaningGroup -.-> pandas/remove_duplicates("Removing Duplicates") python/ModulesandPackagesGroup -.-> python/importing_modules("Importing Modules") python/ModulesandPackagesGroup -.-> python/using_packages("Using Packages") python/PythonStandardLibraryGroup -.-> python/data_collections("Data Collections") python/PythonStandardLibraryGroup -.-> python/data_serialization("Data Serialization") python/DataScienceandMachineLearningGroup -.-> python/data_analysis("Data Analysis") subgraph Lab Skills pandas/read_csv -.-> lab-68611{{"Pandas DataFrame 删除重复行方法"}} pandas/read_excel -.-> lab-68611{{"Pandas DataFrame 删除重复行方法"}} pandas/remove_duplicates -.-> lab-68611{{"Pandas DataFrame 删除重复行方法"}} python/importing_modules -.-> lab-68611{{"Pandas DataFrame 删除重复行方法"}} python/using_packages -.-> lab-68611{{"Pandas DataFrame 删除重复行方法"}} python/data_collections -.-> lab-68611{{"Pandas DataFrame 删除重复行方法"}} python/data_serialization -.-> lab-68611{{"Pandas DataFrame 删除重复行方法"}} python/data_analysis -.-> lab-68611{{"Pandas DataFrame 删除重复行方法"}} end

导入所需的库

首先,我们需要导入所需的库。在本实验中,我们将使用 Pandas 库。

import pandas as pd

创建一个 DataFrame

接下来,我们需要创建一个包含重复行的 DataFrame。我们将使用 pd.DataFrame() 函数来创建 DataFrame。

df = pd.DataFrame({'Name': ['Navya', 'Vindya', 'Navya', 'Vindya', 'Sinchana', 'Sinchana'],
                   'Skills': ['Python', 'Java', 'Python', 'Java', 'Java', 'Java']})
print(df)

删除重复行

现在,我们可以使用 drop_duplicates() 方法从 DataFrame 中删除重复行。该方法将返回一个删除了重复行的新 DataFrame。

df = df.drop_duplicates()
print("After removing duplicate rows:")
print(df)

总结

在本实验中,我们学习了如何在 Pandas DataFrame 中使用 drop_duplicates() 方法来删除重复行。通过指定要考虑的列或要保留的重复项,我们可以自定义该方法处理重复项的方式。

通过遵循这些步骤,你可以有效地使用 drop_duplicates() 方法从 Pandas DataFrame 中删除重复行。