Pandas DataFrame の重複行削除メソッド

Beginner

はじめに

この実験では、Pandas DataFrame の drop_duplicates() メソッドを使用して重複行を削除する方法を学びます。このメソッドを使用するための手順を例を交えて説明します。

VM のヒント

VM の起動が完了したら、左上隅をクリックして ノートブック タブに切り替え、Jupyter Notebook を使って練習しましょう。

時々、Jupyter Notebook が読み込み完了するまで数秒待つ必要がある場合があります。Jupyter Notebook の制限により、操作の検証は自動化できません。

学習中に問題がある場合は、Labby にお問い合わせください。セッション後にフィードバックを提供してください。すぐに問題を解決いたします。

必要なライブラリをインポートする

まず、必要なライブラリをインポートする必要があります。この実験では、Pandas ライブラリを使用します。

import pandas as pd

DataFrame を作成する

次に、重複行を含む DataFrame を作成する必要があります。DataFrame を作成するには pd.DataFrame() 関数を使用します。

df = pd.DataFrame({'Name': ['Navya', 'Vindya', 'Navya', 'Vindya', 'Sinchana', 'Sinchana'],
                   'Skills': ['Python', 'Java', 'Python', 'Java', 'Java', 'Java']})
print(df)

重複行を削除する

これで、DataFrame から重複行を削除するために drop_duplicates() メソッドを使用できます。このメソッドは、重複行が削除された新しい DataFrame を返します。

df = df.drop_duplicates()
print("After removing duplicate rows:")
print(df)

まとめ

この実験では、Pandas DataFrame の drop_duplicates() メソッドを使用して重複行を削除する方法を学びました。対象とする列や残す重複行を指定することで、このメソッドが重複行を処理する方法をカスタマイズできます。

これらの手順に従えば、drop_duplicates() メソッドを使って Pandas DataFrame から効果的に重複行を削除できます。