Das Umgang mit doppelten Labels

PythonPythonBeginner
Jetzt üben

This tutorial is from open-source community. Access the source code

💡 Dieser Artikel wurde von AI-Assistenten übersetzt. Um die englische Version anzuzeigen, können Sie hier klicken

Einführung

In diesem Lab lernen wir, wie wir in pandas doppelte Labels behandeln. Pandas ist eine leistungsstarke Datenmanipulationsbibliothek in Python. Oft stoßen wir auf Daten mit doppelten Zeilen- oder Spaltenlabels, und es ist wichtig, zu verstehen, wie man diese Duplikate erkennen und behandeln kann.

VM-Tipps

Nachdem die VM gestartet ist, klicken Sie in der oberen linken Ecke, um zur Registerkarte Notebook zu wechseln und Jupyter Notebook für die Übung zu öffnen.

Manchmal müssen Sie einige Sekunden warten, bis Jupyter Notebook vollständig geladen ist. Die Validierung von Vorgängen kann aufgrund von Einschränkungen in Jupyter Notebook nicht automatisiert werden.

Wenn Sie während des Lernens Probleme haben, können Sie Labby gerne fragen. Geben Sie nach der Sitzung Feedback, und wir werden das Problem für Sie prompt beheben.

Importieren von erforderlichen Bibliotheken

Zunächst müssen wir die pandas- und numpy-Bibliotheken importieren, die uns dabei helfen, Daten zu erstellen und zu manipulieren.

## Importing necessary libraries
import pandas as pd
import numpy as np

Das Verständnis der Auswirkungen von doppelten Labels

Doppelte Labels können das Verhalten bestimmter Operationen in pandas verändern. Beispielsweise funktionieren einige Methoden nicht, wenn Duplikate vorhanden sind.

## Creating a pandas Series with duplicate labels
s1 = pd.Series([0, 1, 2], index=["a", "b", "b"])

## Attempting to reindex the Series
try:
    s1.reindex(["a", "b", "c"])
except Exception as e:
    print(e)

Duplikate bei der Indizierung

Als nächstes werden wir uns ansehen, wie Duplikate bei der Indizierung zu unerwarteten Ergebnissen führen können.

## Creating a DataFrame with duplicate column labels
df1 = pd.DataFrame([[0, 1, 2], [3, 4, 5]], columns=["A", "A", "B"])

## Indexing 'B' returns a Series
print(df1["B"])

## Indexing 'A' returns a DataFrame
print(df1["A"])

Das Erkennen von doppelten Labels

Wir können nach doppelten Labels mithilfe der Methoden Index.is_unique und Index.duplicated() prüfen.

## Checking if the index has unique labels
print(df1.index.is_unique)

## Checking if the columns have unique labels
print(df1.columns.is_unique)

## Detecting duplicate labels in the index
print(df1.index.duplicated())

Das Verbot von doppelten Labels

Wenn erforderlich, können wir das Vorhandensein von doppelten Labels verhindern, indem wir die Methode set_flags(allows_duplicate_labels=False) verwenden.

## Disallowing duplicate labels in a Series
try:
    pd.Series([0, 1, 2], index=["a", "b", "b"]).set_flags(allows_duplicate_labels=False)
except Exception as e:
    print(e)

## Disallowing duplicate labels in a DataFrame
try:
    pd.DataFrame([[0, 1, 2], [3, 4, 5]], columns=["A", "B", "C"]).set_flags(allows_duplicate_labels=False)
except Exception as e:
    print(e)

Das Überprüfen und Setzen der Flagge für doppelten Labels

Schließlich können wir die Flagge allows_duplicate_labels für ein DataFrame überprüfen und setzen.

## Creating a DataFrame and setting allows_duplicate_labels to False
df = pd.DataFrame({"A": [0, 1, 2, 3]}, index=["x", "y", "X", "Y"]).set_flags(allows_duplicate_labels=False)

## Checking the allows_duplicate_labels flag
print(df.flags.allows_duplicate_labels)

## Setting allows_duplicate_labels to True
df2 = df.set_flags(allows_duplicate_labels=True)
print(df2.flags.allows_duplicate_labels)

Zusammenfassung

In diesem Lab haben wir gelernt, wie man in pandas mit doppelten Labels umgeht. Wir haben die Auswirkungen von doppelten Labels verstanden, gelernt, wie man sie erkennen kann und wie man sie gegebenenfalls verbieten kann. Dies ist eine essentielle Fähigkeit, wenn es um große Datensätze geht, bei denen doppelte Labels möglicherweise zu fehlerhaften Datenanalysen und Ergebnissen führen können.