Pandas DataFrame Dropna 方法

Beginner

介绍

在本实验中,我们将学习 pandas 的 dropna() 方法,该方法用于通过删除包含 null 或 NaN 值的行或列来移除 DataFrame 中的缺失值。

虚拟机使用提示

虚拟机启动完成后,点击左上角切换到 Notebook 标签页,以访问 Jupyter Notebook 进行练习。

有时,你可能需要等待几秒钟,直到 Jupyter Notebook 完成加载。由于 Jupyter Notebook 的限制,操作验证无法自动化。

如果你在学习过程中遇到问题,可以随时向 Labby 寻求帮助。请在实验结束后提供反馈,我们将及时为你解决问题。

导入 pandas 库

在开始之前,我们需要导入 pandas 库。我们将使用 pd 作为该库的别名。

import pandas as pd

创建一个 DataFrame

让我们创建一个包含一些缺失值的 DataFrame。

df = pd.DataFrame([
    ['Abhishek', 100, 'Science', None],
    ['Anurag', 101, 'Science', 85],
    ['Chetan', 103, 'Maths', None]
], columns=['Name', 'Roll No', 'Subject', 'Marks'])

使用 dropna() 方法删除包含缺失值的行

我们可以使用 dropna() 方法来删除包含缺失值的行。默认情况下,它会删除任何包含至少一个 null 或 NaN 值的行。

df_dropped = df.dropna()

显示结果

让我们打印原始 DataFrame 以及删除包含缺失值的行后的结果 DataFrame。

print("Original DataFrame:")
print(df)

print("DataFrame after dropping rows with missing values:")
print(df_dropped)

总结

在本实验中,我们学习了 pandas 的 dropna() 方法,它用于删除 DataFrame 中包含缺失值的行或列。通过删除这些缺失值,我们可以清理 DataFrame,使其适合进一步分析。需要注意的是,此方法默认会修改 DataFrame 并返回一个新的 DataFrame,但我们也可以通过将 inplace 参数设置为 True 来选择原地修改 DataFrame。