Erstellen von benutzerdefinierten Boxplots in Python

PythonPythonBeginner
Jetzt üben

This tutorial is from open-source community. Access the source code

💡 Dieser Artikel wurde von AI-Assistenten übersetzt. Um die englische Version anzuzeigen, können Sie hier klicken

Einführung

Boxplots sind ein Graph-Typ, der zur Darstellung der Verteilung von Daten auf der Grundlage eines Fünf-Zahlen-Summenverfahrens („Minimum“, erstes Quartil (Q1), Median, drittes Quartil (Q3) und „Maximum“) verwendet wird. Sie werden in der Datenanalyse häufig eingesetzt, um Ausreißer zu identifizieren und zu visualisieren, sowie um die Verteilung unterschiedlicher Datengruppen zu vergleichen. In diesem Lab werden Sie lernen, wie Sie in Python mit der Matplotlib-Bibliothek Boxplots erstellen und anpassen.

Tipps für die VM

Nachdem der VM-Start abgeschlossen ist, klicken Sie in der oberen linken Ecke, um zur Registerkarte Notebook zu wechseln und Jupyter Notebook für die Übung zu öffnen.

Manchmal müssen Sie einige Sekunden warten, bis Jupyter Notebook vollständig geladen ist. Die Validierung von Vorgängen kann aufgrund von Einschränkungen in Jupyter Notebook nicht automatisiert werden.

Wenn Sie bei der Lernphase Probleme haben, können Sie Labby gerne fragen. Geben Sie nach der Sitzung Feedback, und wir werden das Problem für Sie prompt beheben.

Importieren der erforderlichen Bibliotheken

Bevor wir beginnen, Boxplots zu erstellen, müssen wir die erforderlichen Bibliotheken importieren, einschließlich NumPy und Matplotlib:

import matplotlib.pyplot as plt
import numpy as np

Generieren der Daten

Als nächstes werden wir einige Beispiel-Daten generieren, die wir in unseren Boxplots verwenden werden. Für diesen Tutorial werden wir die folgenden Daten verwenden:

spread = np.random.rand(50) * 100
center = np.ones(25) * 50
flier_high = np.random.rand(10) * 100 + 100
flier_low = np.random.rand(10) * -100
data = np.concatenate((spread, center, flier_high, flier_low))

Erstellen eines einfachen Boxplots

Wir können einen einfachen Boxplot mit der boxplot()-Funktion aus Matplotlib erstellen. Die boxplot()-Funktion nimmt die Daten als erstes Argument und andere optionale Parameter entgegen, um das Diagramm anzupassen. Hier ist der Code, um einen einfachen Boxplot zu erstellen:

plt.boxplot(data)
plt.show()

Anpassen des Boxplots

Wir können den Boxplot anpassen, indem wir das Aussehen der Box, der Schnurrbögen und der Ausreißer verändern. Wir können auch mehrere Boxplots auf dem gleichen Diagramm erstellen, um verschiedene Datengruppen zu vergleichen. Hier sind einige Beispiele dafür, wie man den Boxplot anpasst:

## Erstellen eines gekerbten Boxplots
plt.boxplot(data, notch=True)
plt.show()

## Ändern der Ausreißer-Punkt-Symbole in grüne Diamanten
plt.boxplot(data, flierprops=dict(marker='D', markerfacecolor='g', markersize=8))
plt.show()

## Erstellen horizontaler Boxplots
plt.boxplot(data, vert=False)
plt.show()

## Erstellen mehrerer Boxplots auf einem Diagramm
data1 = np.random.normal(0, 1, 50)
data2 = np.random.normal(1, 1, 50)
data3 = np.random.normal(2, 1, 50)

plt.boxplot([data1, data2, data3])
plt.show()

Hinzufügen von Beschriftungen und Titeln

Schließlich können wir unserem Boxplot Beschriftungen und Titel hinzufügen, um es informativer zu gestalten. Wir können Beschriftungen für die x- und y-Achsen sowie einen Titel für das Diagramm hinzufügen. Wir können auch die Schriftgröße und den Stil der Beschriftungen und des Titels ändern. Hier ist ein Beispiel dafür, wie man Beschriftungen und Titel hinzufügt:

plt.boxplot([data1, data2, data3])
plt.xlabel('Group')
plt.ylabel('Value')
plt.title('Comparison of Three Groups')
plt.xticks([1, 2, 3], ['Group 1', 'Group 2', 'Group 3'])
plt.show()

Zusammenfassung

In diesem Lab haben Sie gelernt, wie man in Python Boxplots mit der Matplotlib-Bibliothek erstellt und anpasst. Sie haben gelernt, wie man Beispiel-Daten generiert, einen einfachen Boxplot erstellt, das Aussehen des Boxplots anpasst und Beschriftungen und Titel zum Diagramm hinzufügt. Boxplots sind ein leistungsstarkes Werkzeug zur Visualisierung und zum Vergleich der Verteilung von Daten, und das Wissen, wie man sie erstellt und anpasst, ist eine wichtige Fähigkeit für Datenanalysten und Wissenschaftler.