Введение
Добро пожаловать в мир анализа данных с помощью Python! В этой лаборатории вы познакомитесь с Pandas — самой популярной и мощной библиотекой с открытым исходным кодом для манипулирования и анализа данных в Python.
Перед началом этого курса вы должны обладать базовыми навыками программирования на Python и убедиться, что Python правильно настроен в переменной среды PATH вашей системы. Если вы еще не изучили Python, вы можете начать с нашего Пути обучения Python. Кроме того, у вас должен быть установлен NumPy, поскольку он является важным предварительным условием для операций с Pandas. Если вам нужно изучить NumPy, вы можете ознакомиться с нашим Путем обучения NumPy.
Pandas предоставляет высокопроизводительные, простые в использовании структуры данных и инструменты для анализа данных. Двумя основными структурами данных Pandas являются Series (одномерная) и DataFrame (двумерная).
В этой лаборатории вы изучите самые основы, чтобы начать работу. Вы:
- Проверите, установлен ли Pandas в вашей среде.
- Импортируете библиотеку Pandas в скрипт Python.
- Создадите свой первый объект Pandas
Series. - Получите доступ к данным внутри
Series. - Изучите основные свойства
Series.
Эта лаборатория предназначена для начинающих, и предварительные знания Pandas не требуются. Давайте начнем!
Установка Pandas с помощью pip
На этом шаге мы проверим, правильно ли установлен pandas в среде. Среда LabEx поставляется с предустановленными Python и Pandas, чтобы сэкономить ваше время. Вы можете подтвердить это и проверить его версию.
Чтобы проверить сведения об установленном пакете Python, вы можете использовать команду pip show. pip — это установщик пакетов для Python.
Откройте терминал и выполните следующую команду, чтобы отобразить информацию об установленном пакете pandas:
pip show pandas

Вы должны увидеть вывод с подробной информацией о названии пакета, версии, кратком описании и расположении. Версия должна быть 2.2.2 или аналогичной.
Name: pandas
Version: 2.2.2
Summary: Powerful data structures for data analysis, time series, and statistics
Home-page: https://pandas.pydata.org
Author: The Pandas Development Team
Author-email: pandas-dev@python.org
License: BSD-3-Clause
Location: /usr/local/lib/python3.10/dist-packages
Requires: numpy, python-dateutil, pytz, tzdata
Required-by:
Это подтверждает, что pandas готов к использованию в ваших скриптах Python.
Импорт Pandas как pd
На этом шаге вы напишете первую строку кода Python для импорта библиотеки Pandas. По соглашению, Pandas импортируется с псевдонимом pd. Это делает код короче и более читаемым.
В файловом проводнике слева в WebIDE вы увидите файл с именем main.py. Этот файл был создан для вас. Щелкните по нему, чтобы открыть в редакторе.
Теперь добавьте следующий код в main.py, чтобы импортировать pandas и вывести сообщение о подтверждении:
import pandas as pd
print("Pandas imported successfully!")
import pandas as pd: Эта строка указывает Python загрузить библиотеку Pandas и присвоить ей псевдонимpd. С этого момента вы можете получать доступ к функциям и объектам Pandas, используяpd..print(...): Это стандартная функция Python для вывода данных в терминал.

Чтобы запустить ваш скрипт, перейдите в терминал и выполните следующую команду:
python main.py
Вы должны увидеть сообщение о подтверждении, выведенное в терминал:
Pandas imported successfully!
Это подтверждает, что ваш скрипт Python может успешно импортировать и использовать библиотеку Pandas.
Создание простого Series из списка
На этом шаге вы создадите свою первую Series Pandas. Series — это одномерный объект, похожий на массив, который может содержать любые типы данных, такие как целые числа, строки или числа с плавающей запятой. Это фундаментальный строительный блок данных в Pandas.
Вы можете создать Series, передав список Python в конструктор pd.Series().
Измените файл main.py. Замените предыдущее выражение print следующим кодом для создания и вывода Series:
import pandas as pd
## Список чисел Python
data = [10, 20, 30, 40, 50]
## Создание Pandas Series из списка
s = pd.Series(data)
## Вывод Series
print(s)
Предложение: Вы можете скопировать приведенный выше код в свой редактор кода, затем внимательно прочитать каждую строку кода, чтобы понять ее функцию. Если вам требуется дополнительное объяснение, вы можете нажать кнопку "Объяснить код" 👆. Вы можете взаимодействовать с Labby для получения персонализированной помощи.
data = [...]: Сначала мы определяем простой список целых чисел Python.s = pd.Series(data): Мы вызываем конструкторSeriesиз библиотекиpd(Pandas), передавая ему наш список. Это создает объектSeries.
Теперь снова запустите скрипт из терминала:
python main.py
Вывод отобразит вашу Series. Обратите внимание, что у нее есть два столбца: индекс слева (0-4) и значения справа (10-50). Pandas автоматически создает индекс целых чисел по умолчанию, если он не указан.
0 10
1 20
2 30
3 40
4 50
dtype: int64
Доступ к элементам Series по индексу
На этом шаге вы научитесь получать доступ к отдельным элементам или подмножеству элементов из созданной вами Series. Доступ к данным является фундаментальной операцией в анализе данных. Вы можете получать доступ к элементам в Series, используя их индекс, аналогично тому, как это делается с списком Python.
Давайте изменим main.py, чтобы получить доступ и вывести определенные элементы. Мы получим первый элемент (с индексом 0) и срез элементов.
Обновите файл main.py следующим кодом. Добавьте новые операторы print после строки, которая выводит всю серию.
import pandas as pd
data = [10, 20, 30, 40, 50]
s = pd.Series(data)
print("The full Series:")
print(s)
## Доступ к первому элементу (с индексом 0)
print("\nFirst element:", s[0])
## Доступ к срезу элементов (от индекса 1 до, но не включая, 3)
print("\nElements from index 1 to 2:")
print(s[1:3])
s[0]: Это извлекает значение по индексу0, которое равно10.s[1:3]: Это называется срезом (slicing). Он извлекает элементы, начиная с индекса1до индекса3(не включая его). Это даст вам элементы с индексами1и2.
Запустите скрипт, чтобы увидеть результат:
python main.py
Ваш вывод теперь должен показать полную Series, за которой следуют конкретные элементы, к которым вы получили доступ.
The full Series:
0 10
1 20
2 30
3 40
4 50
dtype: int64
First element: 10
Elements from index 1 to 2:
1 20
2 30
dtype: int64
Вывод типа данных и формы Series
На этом шаге вы научитесь проверять два важных свойства Series: ее тип данных (dtype) и ее форму (shape). Понимание этих атрибутов имеет решающее значение для отладки и проверки данных.
dtype: Этот атрибут указывает тип данных значений, хранящихся вSeries(например,int64для целых чисел,float64для чисел с плавающей запятой,objectдля строк).shape: Этот атрибут возвращает кортеж, представляющий размерыSeries. ДляSeries, которая является одномерной, это будет кортеж с одним значением(n,), гдеn— количество элементов.
Давайте обновим main.py, чтобы вывести эти два атрибута. Добавьте следующие строки в конец вашего скрипта:
import pandas as pd
data = [10, 20, 30, 40, 50]
s = pd.Series(data)
## ... (предыдущие операторы print можно удалить или оставить)
## Вывод типа данных Series
print("\nData type:", s.dtype)
## Вывод формы Series
print("Shape:", s.shape)
Теперь запустите скрипт в последний раз:
python main.py
Вывод теперь будет включать тип данных и форму вашей Series.
Data type: int64
Shape: (5,)
Это говорит вам, что ваша Series содержит 64-битные целые числа и имеет 5 элементов.
Резюме
Поздравляем! Вы успешно завершили эту вводную лабораторную работу по Pandas.
В этой лабораторной работе вы изучили основные первые шаги по работе с этой мощной библиотекой. Вы:
- Проверили установку
pandasв вашей среде. - Импортировали библиотеку
pandasв скрипт Python, используя стандартный псевдонимpd. - Создали базовую одномерную
Seriesиз списка Python. - Получили доступ к элементам из
Series, используя индексацию и срезы. - Проверили атрибуты
dtypeиshape, чтобы понять структуру и тип данныхSeries.
Это основные строительные блоки, которые вам понадобятся при переходе к более сложным структурам данных, таким как DataFrame, и выполнении более продвинутых задач анализа данных. Продолжайте практиковаться!



