Pandas DataFrame Korrelationsmethode

PythonPythonBeginner
Jetzt üben

💡 Dieser Artikel wurde von AI-Assistenten übersetzt. Um die englische Version anzuzeigen, können Sie hier klicken

Einführung

In diesem Lab werden wir lernen, wie man die corr()-Methode in der pandas-Bibliothek verwendet, um die Korrelation zwischen Spalten in einem DataFrame zu berechnen. Korrelation ist ein Maß für die lineare Beziehung zwischen zwei Variablen und hilft uns zu verstehen, wie Änderungen in einer Variablen die andere beeinflussen.

Tipps für die VM

Nachdem der VM-Start abgeschlossen ist, klicken Sie in der oberen linken Ecke, um zur Registerkarte Notebook zu wechseln und Jupyter Notebook für die Übung zu nutzen.

Manchmal müssen Sie einige Sekunden warten, bis Jupyter Notebook vollständig geladen ist. Die Validierung von Vorgängen kann aufgrund von Einschränkungen in Jupyter Notebook nicht automatisiert werden.

Wenn Sie bei der Lernphase Probleme haben, können Sie Labby gerne fragen. Geben Sie nach der Sitzung Feedback, und wir werden das Problem für Sie prompt beheben.

Importieren der erforderlichen Bibliotheken

Zunächst müssen wir die erforderlichen Bibliotheken importieren. In diesem Fall benötigen wir nur die pandas-Bibliothek.

import pandas as pd

Erstellen eines DataFrames

Als nächstes erstellen wir ein DataFrame, mit dem wir arbeiten können. Wir werden ein einfaches DataFrame erstellen, das Spalten für die Namen, Alter, Größe und Gewicht von Personen enthält.

chart = {
    'Name':['Chetan','yashas','yuvraj'],
    'Age':  [20, 25, 30],
    'Height': [155, 160, 175],
    'Weight': [55, 60, 75]
}

df = pd.DataFrame(chart)

Berechnen der Korrelation

Jetzt können wir die Korrelation zwischen den Spalten des DataFrames mit der corr()-Methode berechnen. Wir können einen optionalen method-Parameter angeben, um die zu verwendende Korrelationsmethode anzugeben (pearson, kendall oder spearman). Wenn keine Methode angegeben wird, standardmäßig die Pearson-Korrelation.

Berechnen wir die Pearson-Korrelation zwischen den Spalten unseres DataFrames:

pearson_corr = df.corr(method='pearson')
print("Pearson-Korrelation:")
print(pearson_corr)

Visualisieren der Korrelation

Wir können die Korrelationsmatrix mit einem Heatmap visualisieren. Die seaborn-Bibliothek bietet eine bequeme Möglichkeit, Heatmaps zu erstellen.

import seaborn as sns
import matplotlib.pyplot as plt

sns.heatmap(pearson_corr, annot=True, cmap='coolwarm')
plt.title("Pearson-Korrelation Heatmap")
plt.show()

Berechnen der Korrelation mit anderen Methoden

Wir können auch die Korrelation mit den Kendall- oder Spearman-Methoden berechnen. Dazu geben wir einfach den method-Parameter entsprechend an. Berechnen wir die Kendall-Korrelation unseres DataFrames:

kendall_corr = df.corr(method='kendall')
print("Kendall-Korrelation:")
print(kendall_corr)

Visualisieren der Korrelationsheatmap mit anderen Methoden

Ähnlich können wir ein Heatmap erstellen, um die Kendall- und Spearman-Korrelationen zu visualisieren:

sns.heatmap(kendall_corr, annot=True, cmap='coolwarm')
plt.title("Kendall-Korrelation Heatmap")
plt.show()

Wiederhole den Prozess mit der Spearman-Korrelation

Schließlich berechnen und visualisieren wir die Spearman-Korrelation:

spearman_corr = df.corr(method='spearman')
print("Spearman-Korrelation:")
print(spearman_corr)
sns.heatmap(spearman_corr, annot=True, cmap='coolwarm')
plt.title("Spearman-Korrelation Heatmap")
plt.show()

Zusammenfassung

In diesem Lab haben wir gelernt, wie man die Korrelation zwischen Spalten eines DataFrames mit der corr()-Methode in pandas berechnet und visualisiert. Wir haben verschiedene Korrelationsmethoden untersucht, darunter Pearson, Kendall und Spearman, und Heatmaps verwendet, um die Korrelationsmatrizen zu visualisieren. Die Korrelationsanalyse hilft uns, Beziehungen zwischen Variablen zu identifizieren und ist in vielen Bereichen wie der Datenanalyse, Maschinelles Lernen und Finanzwesen nützlich.