Pandas DataFrame nlargest() Methode | Datenanalyse

Einführung

In diesem Lab werden wir die nlargest()-Methode in einem Pandas DataFrame erkunden. Mit dieser Methode können wir die obersten N Zeilen eines DataFrames basierend auf einer oder mehreren angegebenen Spalten abrufen, die in absteigender Reihenfolge sortiert sind.

Tipps für die VM

Nachdem der VM-Start abgeschlossen ist, klicken Sie in der oberen linken Ecke, um zur Registerkarte Notebook zu wechseln und Jupyter Notebook für die Übung zu öffnen.

Manchmal müssen Sie einige Sekunden warten, bis Jupyter Notebook vollständig geladen ist. Die Validierung von Vorgängen kann aufgrund der Einschränkungen von Jupyter Notebook nicht automatisiert werden.

Wenn Sie bei der Lernphase Probleme haben, können Sie Labby gerne fragen. Geben Sie nach der Sitzung Feedback, und wir werden das Problem für Sie prompt beheben.

Skills Graph

%%%%{init: {'theme':'neutral'}}%%%% flowchart RL pandas(("Pandas")) -.-> pandas/DataManipulationGroup(["Data Manipulation"]) pandas(("Pandas")) -.-> pandas/DataCleaningGroup(["Data Cleaning"]) python(("Python")) -.-> python/ModulesandPackagesGroup(["Modules and Packages"]) python(("Python")) -.-> python/PythonStandardLibraryGroup(["Python Standard Library"]) python(("Python")) -.-> python/DataScienceandMachineLearningGroup(["Data Science and Machine Learning"]) pandas(("Pandas")) -.-> pandas/DataSelectionGroup(["Data Selection"]) python(("Python")) -.-> python/DataStructuresGroup(["Data Structures"]) pandas/DataSelectionGroup -.-> pandas/select_rows("Select Rows") python/DataStructuresGroup -.-> python/lists("Lists") pandas/DataManipulationGroup -.-> pandas/sort_data("Sorting Data") pandas/DataCleaningGroup -.-> pandas/remove_duplicates("Removing Duplicates") python/ModulesandPackagesGroup -.-> python/using_packages("Using Packages") python/PythonStandardLibraryGroup -.-> python/data_collections("Data Collections") python/DataScienceandMachineLearningGroup -.-> python/data_analysis("Data Analysis") python/DataScienceandMachineLearningGroup -.-> python/data_visualization("Data Visualization") subgraph Lab Skills pandas/select_rows -.-> lab-68678{{"Pandas DataFrame nlargest-Methode"}} python/lists -.-> lab-68678{{"Pandas DataFrame nlargest-Methode"}} pandas/sort_data -.-> lab-68678{{"Pandas DataFrame nlargest-Methode"}} pandas/remove_duplicates -.-> lab-68678{{"Pandas DataFrame nlargest-Methode"}} python/using_packages -.-> lab-68678{{"Pandas DataFrame nlargest-Methode"}} python/data_collections -.-> lab-68678{{"Pandas DataFrame nlargest-Methode"}} python/data_analysis -.-> lab-68678{{"Pandas DataFrame nlargest-Methode"}} python/data_visualization -.-> lab-68678{{"Pandas DataFrame nlargest-Methode"}} end

Ein DataFrame erstellen

Lassen Sie uns beginnen, indem wir ein Beispiel-DataFrame erstellen, mit dem wir arbeiten können. Wir werden den folgenden Code verwenden, um ein DataFrame mit Spalten für Name, Alter, Größe und Gewicht zu erstellen:

import pandas as pd

df = pd.DataFrame({'Name':['Chetan','yashas','yuvraj','Pooja','Sindu','Renuka'],
                   'Age':[20,25,30,18,25,20],
                   'Height':[155,160,175,145,155,165],
                   'Weight':[75,60,75,45,55,65]})

Dieser Code erstellt ein DataFrame mit den angegebenen Spalten und Daten.

Die nlargest()-Methode verwenden

Die nlargest()-Methode ermöglicht es uns, die obersten N Zeilen basierend auf einer angegebenen Spalte abzurufen. Die Syntax zum Verwenden dieser Methode lautet wie folgt:

df.nlargest(n, columns)

n ist eine Ganzzahl, die die Anzahl der zurückzugebenden Zeilen angibt.
columns ist entweder ein Label oder eine Liste von Labels, die die Spalten repräsentieren, nach denen sortiert werden soll.

Die obersten N Zeilen abrufen

Lassen Sie uns die nlargest()-Methode verwenden, um die obersten 2 Zeilen basierend auf der 'Height'-Spalte abzurufen. Wir werden folgenden Code verwenden:

top_n_rows = df.nlargest(2, 'Height')
print(top_n_rows)

Dieser Code wird ein neues DataFrame zurückgeben, das aus den obersten 2 Zeilen besteht, die nach der 'Height'-Spalte sortiert sind.

Eine andere Spalte angeben

Wir können auch die nlargest()-Methode verwenden, um die obersten N Zeilen basierend auf einer anderen Spalte abzurufen. Lassen Sie uns die obersten 3 Zeilen basierend auf der 'Age'-Spalte abrufen, indem wir folgenden Code verwenden:

top_n_rows = df.nlargest(3, 'Age')
print(top_n_rows)

Dieser Code wird ein neues DataFrame zurückgeben, das aus den obersten 3 Zeilen besteht, die nach der 'Age'-Spalte sortiert sind.

Das keep-Parameter angeben

Wir können den keep-Parameter angeben, um die erste oder letzte Vorkommen von Zeilen mit doppelten Werten zu priorisieren. Standardmäßig ist keep auf 'first' gesetzt. Lassen Sie uns keep='last' angeben, wenn wir die obersten 2 Zeilen basierend auf der 'Height'-Spalte abrufen:

top_n_rows = df.nlargest(2, 'Height', keep='last')
print(top_n_rows)

Dieser Code wird ein neues DataFrame zurückgeben, das aus den letzten 2 Zeilen besteht, die die größten Werte in der 'Height'-Spalte haben.

Zusammenfassung

In diesem Lab haben wir gelernt, wie man die nlargest()-Methode in einem Pandas DataFrame verwendet. Wir können diese Methode verwenden, um die obersten N Zeilen basierend auf einer oder mehreren angegebenen Spalten abzurufen, die in absteigender Reihenfolge sortiert sind. Wir können auch den keep-Parameter angeben, um die erste oder letzte Vorkommen von Zeilen mit doppelten Werten zu priorisieren. Diese Methode ist nützlich, um schnell die größten oder höchsten Werte in einem DataFrame basierend auf bestimmten Kriterien zu finden.