Einführung
In diesem Tutorial werden wir uns mit der Methode DataFrame.reindex() aus der Python-Bibliothek pandas vertraut machen. Wir werden untersuchen, wie man mithilfe dieser Methode den Index und die Spalten eines DataFrames ändern kann. Die Methode DataFrame.reindex() ermöglicht es uns, den DataFrame mit einem neuen Index abzustimmen, indem fehlende Werte an Stellen, an denen im vorherigen Index keine Werte vorhanden waren, aufgefüllt werden.
Tipps für die virtuelle Maschine (VM)
Nachdem die virtuelle Maschine gestartet wurde, klicken Sie in der oberen linken Ecke auf die Registerkarte Notebook, um auf Jupyter Notebook für die Übung zuzugreifen.
Manchmal müssen Sie möglicherweise einige Sekunden warten, bis Jupyter Notebook vollständig geladen ist. Aufgrund von Einschränkungen in Jupyter Notebook kann die Validierung von Operationen nicht automatisiert werden.
Wenn Sie während des Lernens Probleme haben, können Sie sich gerne an Labby wenden. Geben Sie uns nach der Sitzung Feedback, und wir werden das Problem umgehend für Sie lösen.
Importieren Sie die pandas-Bibliothek und erstellen Sie einen DataFrame
Beginnen wir damit, die pandas-Bibliothek zu importieren und einen DataFrame zu erstellen. Wir werden diesen DataFrame verwenden, um die Methode DataFrame.reindex() zu demonstrieren.
import pandas as pd
## Create a DataFrame
df = pd.DataFrame([[1, 6, 2], [3, 4, 6], [12, 1, 0]], columns=['A', 'B', 'C'], index=['index_1', 'index_2', 'index_3'])
Indizieren Sie den DataFrame neu mithilfe des Index-Parameters
Um den Index eines DataFrames neu zu ordnen, übergeben Sie eine Liste mit neuen Indexbezeichnungen an die Methode DataFrame.reindex(). Alle Indexbezeichnungen, die im ursprünglichen DataFrame nicht vorhanden sind, werden mit NaN-Werten gefüllt.
## Reindex the DataFrame with a new index
new_index = ['index_1', 'index_2', 'index_4']
reindexed_df = df.reindex(index=new_index)
print(reindexed_df)
Ausgabe:
A B C
index_1 1.0 6.0 2.0
index_2 3.0 4.0 6.0
index_4 NaN NaN NaN
Indizieren Sie den DataFrame neu mithilfe des columns-Parameters
Ähnlich können Sie die Spalten eines DataFrames mithilfe der Methode DataFrame.reindex() neu anordnen. Übergeben Sie eine Liste mit neuen Spaltenbezeichnungen an den Parameter columns. Alle Spalten, die im ursprünglichen DataFrame nicht vorhanden sind, werden mit NaN-Werten gefüllt.
## Reindex the DataFrame with new columns
new_columns = ['A', 'C', 'D']
reindexed_df = df.reindex(columns=new_columns)
print(reindexed_df)
Ausgabe:
A C D
index_1 1.0 2.0 NaN
index_2 3.0 6.0 NaN
index_3 12.0 0.0 NaN
Füllen Sie fehlende Werte mithilfe des fill_value-Parameters
Wenn Sie die fehlenden Werte mit einem bestimmten Wert auffüllen möchten, können Sie den Parameter fill_value der Methode DataFrame.reindex() verwenden. Geben Sie den gewünschten Wert an, der zum Auffüllen der fehlenden Werte verwendet werden soll.
## Reindex the DataFrame and fill null values with 2
new_index = ['index_1', 'index_2', 'index_4']
reindexed_df = df.reindex(index=new_index, fill_value=2)
print(reindexed_df)
Ausgabe:
A B C
index_1 1 6 2
index_2 3 4 6
index_4 2 2 2
Zusammenfassung
In diesem Tutorial haben wir gelernt, wie man einen DataFrame mit der Methode DataFrame.reindex() in pandas neu indiziert. Wir haben untersucht, wie man den Index und die Spalten eines DataFrames ändert, fehlende Werte auffüllt und einen Füllwert für die fehlenden Werte angibt. Das Wissen, wie man einen DataFrame richtig neu indiziert, ist nützlich für die Manipulation und das Abgleichen von Daten in pandas.