Pandas DataFrame Vergleichsmethode

PythonPythonBeginner
Jetzt üben

💡 Dieser Artikel wurde von AI-Assistenten übersetzt. Um die englische Version anzuzeigen, können Sie hier klicken

Einführung

In diesem Lab lernst du, wie du die compare()-Methode in der pandas-Bibliothek verwendest, um zwei DataFrames zu vergleichen und ihre Unterschiede zu identifizieren. Die compare()-Methode ist ein bequemer Weg, um Diskrepanzen zwischen zwei DataFrames zu finden, indem sie die unterschiedlichen Werte in einem nebeneinander liegenden Vergleich anzeigt.

Tipps für die virtuelle Maschine

Nachdem der Start der virtuellen Maschine abgeschlossen ist, klicke in der oberen linken Ecke, um zur Registerkarte Notebook zu wechseln und Jupyter Notebook für die Übung zu nutzen.

Manchmal musst du einige Sekunden warten, bis Jupyter Notebook vollständig geladen ist. Die Validierung von Vorgängen kann aufgrund von Einschränkungen in Jupyter Notebook nicht automatisiert werden.

Wenn du bei der Lernphase Probleme hast, kannst du Labby gerne fragen. Gib nach der Sitzung Feedback, und wir werden das Problem für dich prompt beheben.

Importieren der erforderlichen Bibliotheken

Zunächst musst du die pandas-Bibliothek importieren, um die compare()-Methode zu verwenden. Führe den folgenden Code aus:

import pandas as pd

Erstellen der DataFrames

Als nächstes wirst du zwei DataFrames erstellen, um sie zu vergleichen. Jeder DataFrame sollte die gleichen Labels haben, aber unterschiedliche Werte aufweisen. Führe den folgenden Code aus, um die DataFrames zu erstellen:

df1 = pd.DataFrame([['Abhishek',100,'Science',90], ['Anurag',101,'Science',85]], columns=['Name', 'Roll No', 'Subject', 'Marks'])
df2 = pd.DataFrame([['Abhishek',100,'Maths',95], ['Anurag',101,'Maths',80]], columns=['Name', 'Roll No', 'Subject', 'Marks'])

Vergleiche die DataFrames

Jetzt kannst du die compare()-Methode verwenden, um die beiden DataFrames zu vergleichen und die Unterschiede anzuzeigen. Die Methode vergleicht die Werte zwischen den beiden DataFrames und gibt einen neuen DataFrame mit den unterschiedlichen Werten nebeneinander zurück. Führe den folgenden Code aus:

differences = df1.compare(df2)
print(differences)

Ändere die DataFrames und vergleiche erneut

Du kannst die Werte in einem der beiden DataFrames ändern und sie erneut vergleichen, um die aktualisierten Unterschiede zu sehen. Führe den folgenden Code aus, um einen Wert im zweiten DataFrame zu ändern:

df2.at[1, 'Marks'] = 85

Dann führe den Vergleichscode aus Schritt 3 erneut aus, um die aktualisierten Unterschiede zu sehen.

Festlegen der Ausrichtungachse und des Einbaus gleicher Werte

Du kannst auch die Ausrichtungachse und den Einbau gleicher Werte im resultierenden DataFrame angeben. Standardmäßig ist die Ausrichtungachse auf 1 (Spalten) eingestellt und gleiche Werte werden nicht mit einbezogen. Führe den folgenden Code aus, um diese Optionen zu demonstrieren:

differences_axis_0 = df1.compare(df2, align_axis=0)
differences_keep_equal = df1.compare(df2, keep_equal=True)

Zusammenfassung

In diesem Lab hast du gelernt, wie du die compare()-Methode in der pandas-Bibliothek verwenden kannst, um zwei DataFrames zu vergleichen. Mit dieser Methode kannst du die Unterschiede zwischen DataFrames identifizieren, indem du die unterschiedlichen Werte nebeneinander anzeigt. Du hast auch gelernt, wie du die Ausrichtungachse und den Einbau gleicher Werte im resultierenden DataFrame angeben kannst. Jetzt kannst du diese Kenntnisse nutzen, um die Unterschiede zwischen Datensätzen leicht zu vergleichen und zu analysieren.