Pandas DataFrame の dropna | データクリーニングチュートリアル

はじめに

この実験では、DataFrame の pandas dropna() メソッドについて学びます。このメソッドは、null または NaN 値を含む行または列を削除することで、DataFrame から欠損値を削除するために使用されます。

VM のヒント

VM の起動が完了したら、左上隅をクリックして ノートブック タブに切り替え、Jupyter Notebook を使って練習しましょう。

時々、Jupyter Notebook が読み込み完了するまで数秒待つ必要がある場合があります。Jupyter Notebook の制限により、操作の検証は自動化できません。

学習中に問題に遭遇した場合は、Labby にお尋ねください。セッション後にフィードバックを提供してください。すぐに問題を解決いたします。

pandas ライブラリをインポートする

始める前に、pandas ライブラリをインポートする必要があります。このライブラリには pd というエイリアスを使用します。

import pandas as pd

DataFrame を作成する

いくつかの欠損値を含む DataFrame を作成しましょう。

df = pd.DataFrame([
    ['Abhishek', 100, 'Science', None],
    ['Anurag', 101, 'Science', 85],
    ['Chetan', 103, 'Maths', None]
], columns=['Name', 'Roll No', 'Subject', 'Marks'])

欠損値を持つ行を削除するために dropna() メソッドを使用する

欠損値が含まれる行を削除するために、dropna() メソッドを使用できます。既定では、少なくとも 1 つの null または NaN 値を持つ行を削除します。

df_dropped = df.dropna()

結果を表示する

欠損値がある行を削除した後の元の DataFrame と結果の DataFrame を表示しましょう。

print("Original DataFrame:")
print(df)

print("DataFrame after dropping rows with missing values:")
print(df_dropped)

まとめ

この実験では、DataFrame の欠損値を持つ行または列を削除するための pandas の dropna() メソッドについて学びました。これらの欠損値を削除することで、DataFrame をクリーンにしてさらなる分析に適した状態にすることができます。このメソッドは DataFrame を変更し、既定で新しい DataFrame を返しますが、inplace パラメータを True に設定することで、DataFrame を直接変更することもできます。

Pandas DataFrame の dropna メソッド