Pandas deskriptive Statistik: Ein Leitfaden für Anfänger

Einführung

Willkommen zum Lab über deskriptive Statistiken mit Pandas. Deskriptive Statistiken sind grundlegend für die Datenanalyse und liefern einfache Zusammenfassungen über die Stichprobe und die Messungen. Mit Pandas, einer leistungsstarken Datenmanipulationsbibliothek in Python, ist die Berechnung dieser Statistiken unkompliziert und effizient.

In diesem Lab lernen Sie, wie Sie:

Den Mittelwert (Durchschnitt) eines Datensatzes berechnen.
Den Median (Mittelwert) finden.
Den Minimal- und Maximalwert ermitteln.
Eine vollständige Zusammenfassung von Statistiken mit einem einzigen Befehl generieren.
Einzigartige Werte in einer kategorialen Spalte zählen.

Sie werden diese Operationen auf einem Beispiel-DataFrame durchführen und Python-Code in der WebIDE schreiben und ausführen. Los geht's!

Mittelwert mit der mean()-Methode berechnen

In diesem Schritt lernen Sie, wie Sie den Mittelwert (Durchschnitt) einer numerischen Spalte in einem Pandas DataFrame berechnen. Der Mittelwert ist die Summe der Werte geteilt durch die Anzahl der Werte und ist eines der gebräuchlichsten Maße für die zentrale Tendenz.

Pandas stellt die Methode .mean() zur Verfügung, die auf einer Series (einer Spalte eines DataFrames) aufgerufen werden kann, um deren Mittelwert zu berechnen.

Öffnen Sie zuerst die Datei main.py im Dateiexplorer auf der linken Seite der WebIDE. Sie sehen den anfänglichen Code, der unseren Beispiel-DataFrame erstellt.

Fügen Sie den folgenden Code am Ende der Datei main.py hinzu, um den Mittelwert der Spalte score zu berechnen und auszugeben.

## Calculate the mean of the 'score' column
score_mean = df['score'].mean()
print(f"Mean Score: {score_mean}")

Lassen Sie uns nun das Skript ausführen. Öffnen Sie ein Terminal in der WebIDE (Terminal -> New Terminal) und führen Sie den folgenden Befehl aus:

python3 main.py

Sie sollten den ursprünglichen DataFrame, eine Trennlinie und den berechneten mittleren Punktestand sehen.

Original DataFrame:
      name  age  score grade
0    Alice   24     85     B
1      Bob   27     90     A
2  Charlie   22     78     C
3    David   32     95     A
4      Eve   29     88     B

==============================

Mean Score: 87.2

Median mit der median()-Methode berechnen

In diesem Schritt berechnen Sie den Median einer numerischen Spalte. Der Median ist der mittlere Wert eines Datensatzes, der in aufsteigender Reihenfolge sortiert wurde. Er ist oft ein besseres Maß für die zentrale Tendenz als der Mittelwert, wenn die Daten Ausreißer enthalten.

Pandas macht dies mit der Methode .median() einfach.

Bearbeiten Sie die Datei main.py weiter. Fügen Sie die folgenden Zeilen am Ende des Skripts hinzu, um den Median der Spalte score zu berechnen und auszugeben.

## Calculate the median of the 'score' column
score_median = df['score'].median()
print(f"Median Score: {score_median}")

Speichern Sie die Datei und führen Sie das Skript erneut im Terminal aus:

python3 main.py

Die Ausgabe enthält nun sowohl den Mittelwert als auch den Median.

Original DataFrame:
      name  age  score grade
0    Alice   24     85     B
1      Bob   27     90     A
2  Charlie   22     78     C
3    David   32     95     A
4      Eve   29     88     B

==============================

Mean Score: 87.2
Median Score: 88.0

Min- und Max-Werte finden

In diesem Schritt finden Sie die minimalen und maximalen Werte in einer Spalte. Diese Statistiken sind nützlich, um den Bereich und die Verteilung Ihrer Daten zu verstehen. Pandas stellt zu diesem Zweck die Methoden .min() und .max() zur Verfügung.

Finden wir die niedrigsten und höchsten Punktzahlen in unserem Datensatz. Fügen Sie den folgenden Code am Ende Ihres main.py-Skripts hinzu.

## Find the minimum and maximum scores
score_min = df['score'].min()
score_max = df['score'].max()
print(f"Minimum Score: {score_min}")
print(f"Maximum Score: {score_max}")

Speichern Sie die Datei und führen Sie sie im Terminal aus:

python3 main.py

Ihre Ausgabe zeigt nun den Mittelwert, den Median, das Minimum und das Maximum der Punktzahlen.

Original DataFrame:
      name  age  score grade
0    Alice   24     85     B
1      Bob   27     90     A
2  Charlie   22     78     C
3    David   32     95     A
4      Eve   29     88     B

==============================

Mean Score: 87.2
Median Score: 88.0
Minimum Score: 78
Maximum Score: 95

Zusammenfassende Statistiken mit describe generieren

In diesem Schritt verwenden Sie die leistungsstarke Methode .describe(). Diese einzelne Methode generiert eine umfassende Zusammenfassung deskriptiver Statistiken für alle numerischen Spalten in Ihrem DataFrame, einschließlich Anzahl (count), Mittelwert (mean), Standardabweichung (standard deviation), Minimum (min), Maximum (max) und Quartilwerten.

Dies ist eine enorme Zeitersparnis, um einen schnellen Überblick über Ihre Daten zu erhalten. Fügen Sie den folgenden Code am Ende von main.py hinzu.

## Generate a summary of descriptive statistics
summary_stats = df.describe()
print("Descriptive Statistics Summary:")
print(summary_stats)

Speichern Sie die Datei und führen Sie das Skript aus:

python3 main.py

Sie sehen eine gut formatierte Tabelle mit den zusammenfassenden Statistiken für die Spalten age und score.

... (previous output) ...

Descriptive Statistics Summary:
             age      score
count   5.000000   5.000000
mean   26.800000  87.200000
std     4.024922   6.379655
min    22.000000  78.000000
25%    24.000000  85.000000
50%    27.000000  88.000000
75%    29.000000  90.000000
max    32.000000  95.000000

Eindeutige Werte mit value_counts zählen

In diesem Schritt lernen Sie, wie Sie die Häufigkeit eindeutiger Werte in einer Spalte zählen. Dies ist besonders nützlich für kategoriale Daten. Die Methode .value_counts() gibt eine Series zurück, die die Häufigkeiten eindeutiger Werte enthält.

Zählen wir, wie viele Studenten jede Note erhalten haben. Fügen Sie den folgenden Code am Ende von main.py hinzu.

## Count the occurrences of each grade
grade_counts = df['grade'].value_counts()
print("Grade Counts:")
print(grade_counts)

Speichern Sie die Datei und führen Sie das Skript zum letzten Mal aus.

python3 main.py

Die endgültige Ausgabe enthält die Zählungen für jede eindeutige Note.

... (previous output) ...

Grade Counts:
grade
B    2
A    2
C    1
Name: count, dtype: int64

Dies zeigt, dass die Noten 'A' und 'B' jeweils zweimal vorkommen und die Note 'C' einmal.

Zusammenfassung

Herzlichen Glückwunsch zum Abschluss des Labs! Sie haben erfolgreich grundlegende deskriptive statistische Analysen mit der Pandas-Bibliothek durchgeführt.

In diesem Lab haben Sie mehrere wichtige Pandas-Methoden geübt:

.mean() zur Berechnung des Durchschnitts.
.median() zum Finden des zentralen Wertes.
.min() und .max() zur Bestimmung des Datenbereichs.
.describe() für eine schnelle und umfassende statistische Zusammenfassung.
.value_counts() zum Zählen eindeutiger Werte in einer kategorialen Spalte.

Diese Funktionen sind wesentliche Werkzeuge für jeden Datenanalysten oder Wissenschaftler und bilden die Grundlage für die explorative Datenanalyse (EDA). Üben Sie diese Fähigkeiten weiter, um auf Ihrer Reise der Datenanalyse versierter zu werden.