Выбор данных в Pandas

Beginner

This tutorial is from open-source community. Access the source code

Введение

В этом практическом занятии мы научимся выбирать определенные данные из DataFrame с использованием Pandas, популярной библиотеки для анализа и манипуляции данными в Python. В этом уроке мы будем использовать датасет Titanic.

Советы по работе с ВМ

После запуска виртуальной машины кликните в левом верхнем углу, чтобы переключиться на вкладку Notebook и получить доступ к Jupyter Notebook для практики.

Иногда вам может потребоваться подождать несколько секунд, пока Jupyter Notebook загрузится полностью. Валидация операций не может быть автоматизирована из-за ограничений Jupyter Notebook.

Если вы сталкиваетесь с проблемами во время обучения, не стесняйтесь обращаться к Labby. Оставьте отзыв после занятия, и мы оперативно решим проблему для вас.

Это Guided Lab, который предоставляет пошаговые инструкции, чтобы помочь вам учиться и практиковаться. Внимательно следуйте инструкциям, чтобы выполнить каждый шаг и получить практический опыт. Исторические данные показывают, что это лабораторная работа уровня начальный с процентом завершения 98%. Он получил 100% положительных отзывов от учащихся.

Импорт необходимых библиотек и данных

Во - первых, нам нужно импортировать библиотеку Pandas и датасет Titanic.

## Import pandas library
import pandas as pd

## Load the Titanic dataset
titanic = pd.read_csv("data/titanic.csv")
titanic.head()

Выбор одного столбца

Для выбора одного столбца используйте квадратные скобки [] с именем интересующего вас столбца.

## Select the 'Age' column
ages = titanic["Age"]

## Display the first 5 rows
ages.head()

Выбор нескольких столбцов

Для выбора нескольких столбцов используйте список имен столбцов внутри квадратных скобок [].

## Select the 'Age' and 'Sex' columns
age_sex = titanic[["Age", "Sex"]]

## Display the first 5 rows
age_sex.head()

Фильтрация определенных строк

Для выбора строк на основе условного выражения используйте условие внутри квадратных скобок [].

## Filter rows where 'Age' is greater than 35
above_35 = titanic[titanic["Age"] > 35]

## Display the first 5 rows
above_35.head()

Выбор определенных строк и столбцов

Для одновременного выбора строк и столбцов мы используем операторы loc или iloc.

## Select 'Name' of passengers older than 35
adult_names = titanic.loc[titanic["Age"] > 35, "Name"]

## Display the first 5 rows
adult_names.head()

Резюме

В этом практическом занятии мы научились выбирать и фильтровать данные из DataFrame в Pandas. Мы узнали, как выбирать один или несколько столбцов, фильтровать строки на основе определенных условий и выбирать определенные строки и столбцы. Эти операции являются фундаментальными при анализе и манипуляции данными с использованием Pandas.