Введение в Pandas и настройка

PandasBeginner
Практиковаться сейчас

Введение

Добро пожаловать в мир анализа данных с помощью Python! В этой лаборатории вы познакомитесь с Pandas — самой популярной и мощной библиотекой с открытым исходным кодом для манипулирования и анализа данных в Python.

Перед началом этого курса вы должны обладать базовыми навыками программирования на Python и убедиться, что Python правильно настроен в переменной среды PATH вашей системы. Если вы еще не изучили Python, вы можете начать с нашего Пути обучения Python. Кроме того, у вас должен быть установлен NumPy, поскольку он является важным предварительным условием для операций с Pandas. Если вам нужно изучить NumPy, вы можете ознакомиться с нашим Путем обучения NumPy.

Pandas предоставляет высокопроизводительные, простые в использовании структуры данных и инструменты для анализа данных. Двумя основными структурами данных Pandas являются Series (одномерная) и DataFrame (двумерная).

В этой лаборатории вы изучите самые основы, чтобы начать работу. Вы:

  • Проверите, установлен ли Pandas в вашей среде.
  • Импортируете библиотеку Pandas в скрипт Python.
  • Создадите свой первый объект Pandas Series.
  • Получите доступ к данным внутри Series.
  • Изучите основные свойства Series.

Эта лаборатория предназначена для начинающих, и предварительные знания Pandas не требуются. Давайте начнем!

Установка Pandas с помощью pip

На этом шаге мы проверим, правильно ли установлен pandas в среде. Среда LabEx поставляется с предустановленными Python и Pandas, чтобы сэкономить ваше время. Вы можете подтвердить это и проверить его версию.

Чтобы проверить сведения об установленном пакете Python, вы можете использовать команду pip show. pip — это установщик пакетов для Python.

Откройте терминал и выполните следующую команду, чтобы отобразить информацию об установленном пакете pandas:

pip show pandas
Вывод терминала с деталями установки pandas

Вы должны увидеть вывод с подробной информацией о названии пакета, версии, кратком описании и расположении. Версия должна быть 2.2.2 или аналогичной.

Name: pandas
Version: 2.2.2
Summary: Powerful data structures for data analysis, time series, and statistics
Home-page: https://pandas.pydata.org
Author: The Pandas Development Team
Author-email: pandas-dev@python.org
License: BSD-3-Clause
Location: /usr/local/lib/python3.10/dist-packages
Requires: numpy, python-dateutil, pytz, tzdata
Required-by:

Это подтверждает, что pandas готов к использованию в ваших скриптах Python.

Импорт Pandas как pd

На этом шаге вы напишете первую строку кода Python для импорта библиотеки Pandas. По соглашению, Pandas импортируется с псевдонимом pd. Это делает код короче и более читаемым.

В файловом проводнике слева в WebIDE вы увидите файл с именем main.py. Этот файл был создан для вас. Щелкните по нему, чтобы открыть в редакторе.

Теперь добавьте следующий код в main.py, чтобы импортировать pandas и вывести сообщение о подтверждении:

import pandas as pd

print("Pandas imported successfully!")
  • import pandas as pd: Эта строка указывает Python загрузить библиотеку Pandas и присвоить ей псевдоним pd. С этого момента вы можете получать доступ к функциям и объектам Pandas, используя pd..
  • print(...): Это стандартная функция Python для вывода данных в терминал.
Код Python для импорта pandas и вывода подтверждения

Чтобы запустить ваш скрипт, перейдите в терминал и выполните следующую команду:

python main.py

Вы должны увидеть сообщение о подтверждении, выведенное в терминал:

Pandas imported successfully!

Это подтверждает, что ваш скрипт Python может успешно импортировать и использовать библиотеку Pandas.

Создание простого Series из списка

На этом шаге вы создадите свою первую Series Pandas. Series — это одномерный объект, похожий на массив, который может содержать любые типы данных, такие как целые числа, строки или числа с плавающей запятой. Это фундаментальный строительный блок данных в Pandas.

Вы можете создать Series, передав список Python в конструктор pd.Series().

Измените файл main.py. Замените предыдущее выражение print следующим кодом для создания и вывода Series:

import pandas as pd

## Список чисел Python
data = [10, 20, 30, 40, 50]

## Создание Pandas Series из списка
s = pd.Series(data)

## Вывод Series
print(s)

Предложение: Вы можете скопировать приведенный выше код в свой редактор кода, затем внимательно прочитать каждую строку кода, чтобы понять ее функцию. Если вам требуется дополнительное объяснение, вы можете нажать кнопку "Объяснить код" 👆. Вы можете взаимодействовать с Labby для получения персонализированной помощи.

  • data = [...]: Сначала мы определяем простой список целых чисел Python.
  • s = pd.Series(data): Мы вызываем конструктор Series из библиотеки pd (Pandas), передавая ему наш список. Это создает объект Series.

Теперь снова запустите скрипт из терминала:

python main.py

Вывод отобразит вашу Series. Обратите внимание, что у нее есть два столбца: индекс слева (0-4) и значения справа (10-50). Pandas автоматически создает индекс целых чисел по умолчанию, если он не указан.

0    10
1    20
2    30
3    40
4    50
dtype: int64

Доступ к элементам Series по индексу

На этом шаге вы научитесь получать доступ к отдельным элементам или подмножеству элементов из созданной вами Series. Доступ к данным является фундаментальной операцией в анализе данных. Вы можете получать доступ к элементам в Series, используя их индекс, аналогично тому, как это делается с списком Python.

Давайте изменим main.py, чтобы получить доступ и вывести определенные элементы. Мы получим первый элемент (с индексом 0) и срез элементов.

Обновите файл main.py следующим кодом. Добавьте новые операторы print после строки, которая выводит всю серию.

import pandas as pd

data = [10, 20, 30, 40, 50]
s = pd.Series(data)

print("The full Series:")
print(s)

## Доступ к первому элементу (с индексом 0)
print("\nFirst element:", s[0])

## Доступ к срезу элементов (от индекса 1 до, но не включая, 3)
print("\nElements from index 1 to 2:")
print(s[1:3])
  • s[0]: Это извлекает значение по индексу 0, которое равно 10.
  • s[1:3]: Это называется срезом (slicing). Он извлекает элементы, начиная с индекса 1 до индекса 3 (не включая его). Это даст вам элементы с индексами 1 и 2.

Запустите скрипт, чтобы увидеть результат:

python main.py

Ваш вывод теперь должен показать полную Series, за которой следуют конкретные элементы, к которым вы получили доступ.

The full Series:
0    10
1    20
2    30
3    40
4    50
dtype: int64

First element: 10

Elements from index 1 to 2:
1    20
2    30
dtype: int64

Вывод типа данных и формы Series

На этом шаге вы научитесь проверять два важных свойства Series: ее тип данных (dtype) и ее форму (shape). Понимание этих атрибутов имеет решающее значение для отладки и проверки данных.

  • dtype: Этот атрибут указывает тип данных значений, хранящихся в Series (например, int64 для целых чисел, float64 для чисел с плавающей запятой, object для строк).
  • shape: Этот атрибут возвращает кортеж, представляющий размеры Series. Для Series, которая является одномерной, это будет кортеж с одним значением (n,), где n — количество элементов.

Давайте обновим main.py, чтобы вывести эти два атрибута. Добавьте следующие строки в конец вашего скрипта:

import pandas as pd

data = [10, 20, 30, 40, 50]
s = pd.Series(data)

## ... (предыдущие операторы print можно удалить или оставить)

## Вывод типа данных Series
print("\nData type:", s.dtype)

## Вывод формы Series
print("Shape:", s.shape)

Теперь запустите скрипт в последний раз:

python main.py

Вывод теперь будет включать тип данных и форму вашей Series.

Data type: int64
Shape: (5,)

Это говорит вам, что ваша Series содержит 64-битные целые числа и имеет 5 элементов.

Резюме

Поздравляем! Вы успешно завершили эту вводную лабораторную работу по Pandas.

В этой лабораторной работе вы изучили основные первые шаги по работе с этой мощной библиотекой. Вы:

  • Проверили установку pandas в вашей среде.
  • Импортировали библиотеку pandas в скрипт Python, используя стандартный псевдоним pd.
  • Создали базовую одномерную Series из списка Python.
  • Получили доступ к элементам из Series, используя индексацию и срезы.
  • Проверили атрибуты dtype и shape, чтобы понять структуру и тип данных Series.

Это основные строительные блоки, которые вам понадобятся при переходе к более сложным структурам данных, таким как DataFrame, и выполнении более продвинутых задач анализа данных. Продолжайте практиковаться!