Pandas DataFrame Describe Methode

PythonPythonBeginner
Jetzt üben

💡 Dieser Artikel wurde von AI-Assistenten übersetzt. Um die englische Version anzuzeigen, können Sie hier klicken

Einführung

In diesem Lab lernst du, wie du die describe()-Methode in der Pandas-Bibliothek verwenden kannst, um deskriptive Statistiken für einen DataFrame zu generieren. Die describe()-Methode berechnet verschiedene statistische Maße wie Anzahl, Mittelwert, Standardabweichung, Minimum, Maximum und Prozentile für numerische Spalten. Sie liefert auch zusammenfassende Statistiken für Spalten mit Objekt-Datentypen.

VM-Tipps

Nachdem der VM-Start abgeschlossen ist, klicke in der oberen linken Ecke, um zur Registerkarte Notebook zu wechseln und Jupyter Notebook für die Übung zu nutzen.

Manchmal musst du einige Sekunden warten, bis Jupyter Notebook vollständig geladen ist. Die Validierung von Vorgängen kann aufgrund von Einschränkungen in Jupyter Notebook nicht automatisiert werden.

Wenn du bei der Lernphase Probleme hast, kannst du Labby gerne fragen. Gib nach der Sitzung Feedback, und wir werden das Problem für dich prompt beheben.

Importiere die erforderlichen Bibliotheken und erstelle einen DataFrame

Zunächst importiere die Pandas-Bibliothek mit dem import-Schlüsselwort. Erstelle einen DataFrame mit der pd.DataFrame()-Methode und Beispiel-Daten.

import pandas as pd

## Create a DataFrame
df = pd.DataFrame([['Abhishek', 100, 'Science', 90],
                   ['Anurag', 101, 'Science', 85],
                   ['Chetan', 103, 'Maths', 75]],
                  columns=['Name', 'Roll No', 'Subject', 'Marks'])

Beschreibe den DataFrame mit der describe()-Methode

Um den DataFrame zu beschreiben, verwende die describe()-Methode auf dem DataFrame-Objekt.

## Describe the DataFrame
description = df.describe()

## Print the description
print(description)

Beschreibe alle Spalten des DataFrames

Um alle Spalten des DataFrames, einschließlich numerischer und Objekt-Datentypen, zu beschreiben, verwende den Parameter include='all' in der describe()-Methode.

## Describe all columns of the DataFrame
description_all_columns = df.describe(include='all')

## Print the description of all columns
print(description_all_columns)

Beschreibe eine bestimmte Spalte des DataFrames

Um eine bestimmte Spalte des DataFrames zu beschreiben, greife auf sie als Attribut zu und verwende die describe()-Methode.

## Describe a specific column of the DataFrame
marks_description = df.Marks.describe()

## Print the description of the 'Marks' column
print(marks_description)

Ausschließen numerischer Spalten von der Beschreibung

Um numerische Spalten von der Beschreibung auszuschließen, verwende den Parameter exclude=np.number in der describe()-Methode.

import numpy as np

## Exclude numeric columns from the description
description_exclude_numeric = df.describe(exclude=np.number)

## Print the description excluding numeric columns
print(description_exclude_numeric)

Beschreibe einen DataFrame mit None-Werten

Um einen DataFrame zu beschreiben, der None-Werte enthält, wird die describe()-Methode sie entsprechend behandeln.

## Create a DataFrame with None values
df_with_none = pd.DataFrame([['Abhishek', 101, 'Science', None],
                             ['Anurag', None, 'Science', 85],
                             ['Chetan', None, 'Maths', 75]],
                            columns=['Name', 'Roll No', 'Subject', 'Marks'])

## Describe the DataFrame with None values
description_with_none = df_with_none.describe()

## Print the description of the DataFrame with None values
print(description_with_none)

Zusammenfassung

Herzlichen Glückwunsch! In diesem Lab haben Sie gelernt, wie die describe()-Methode in Pandas verwendet wird, um deskriptive Statistiken für einen DataFrame zu generieren. Sie können diese Methode verwenden, um wertvolle Einblicke in die Zentraltendenz, Dispersion und Form der Verteilung eines Datensatzes zu erhalten. Die describe()-Methode ist ein leistungsstarkes Tool für die Datenanalyse und -exploration. Frohes Programmieren!