Обработка данных с использованием Pandas

Beginner

This tutorial is from open-source community. Access the source code

Введение

В этом практическом занятии вы научитесь читать, записывать и манипулировать данными с использованием Pandas - мощной библиотеки для анализа и манипуляции данными в Python. В качестве примера мы будем использовать набор данных о кораблекрушении Титаника.

Советы по использованию ВМ

После запуска виртуальной машины нажмите в левом верхнем углу, чтобы переключиться на вкладку Notebook и приступить к практике в Jupyter Notebook.

Иногда может потребоваться подождать несколько секунд, пока Jupyter Notebook полностью загрузится. Проверка операций не может быть автоматизирована из-за ограничений в Jupyter Notebook.

Если вы столкнетесь с проблемами во время обучения, не стесняйтесь обращаться к Labby. Оставьте отзыв после занятия, и мы оперативно решим проблему для вас.

Это Guided Lab, который предоставляет пошаговые инструкции, чтобы помочь вам учиться и практиковаться. Внимательно следуйте инструкциям, чтобы выполнить каждый шаг и получить практический опыт. Исторические данные показывают, что это лабораторная работа уровня начальный с процентом завершения 88%. Он получил 100% положительных отзывов от учащихся.

Импорт необходимых библиотек

Сначала нам нужно импортировать необходимые библиотеки для нашей задачи. Для этого практического занятия нам понадобится только pandas.

## Импорт библиотеки pandas
import pandas as pd

Чтение данных из CSV-файла

Следующим шагом является чтение данных из CSV-файла. Для этого мы будем использовать функцию read_csv из библиотеки pandas.

## Чтение данных из CSV-файла
titanic = pd.read_csv("data/titanic.csv")

Проверка данных

После чтения данных всегда полезно проверить, как они выглядят. Мы выведем первые несколько строк DataFrame.

## Вывод первых нескольких строк DataFrame
titanic.head()

Проверка типов данных

Мы можем проверить типы данных каждого столбца, используя атрибут dtypes DataFrame.

## Проверка типов данных каждого столбца
titanic.dtypes

Запись данных в Excel

Вы также можете записать данные в Excel-файл, используя метод to_excel. Сохраним наш DataFrame в Excel-файл.

## Сохранение DataFrame в Excel-файл
titanic.to_excel("titanic.xlsx", sheet_name="passengers", index=False)

Чтение данных из Excel

Чтение данных из Excel-файла так же просто, как и чтение данных из CSV-файла. Мы будем использовать функцию read_excel из библиотеки pandas.

## Чтение данных из Excel-файла
titanic = pd.read_excel("titanic.xlsx", sheet_name="passengers")

Проверка информации о DataFrame

Метод info предоставляет техническое сводное описание DataFrame. Это может быть полезно для проверки типов данных, количества непустых значений и использования памяти.

## Проверка информации о DataFrame
titanic.info()

Резюме

В этом практическом занятии мы узнали, как читать и записывать данные с использованием pandas, а также как проверять информацию о DataFrame. Pandas предоставляет широкий спектр функций для обработки и манипуляции данными, превращая его в мощный инструмент для анализа данных.