Seleção de Dados em Pandas

Beginner

This tutorial is from open-source community. Access the source code

Introdução

Neste laboratório, vamos aprender como selecionar dados específicos de um DataFrame usando Pandas, uma popular biblioteca de análise e manipulação de dados em Python. Usaremos o conjunto de dados do Titanic para este tutorial.

Dicas para a VM (Máquina Virtual)

Após a inicialização da VM, clique no canto superior esquerdo para mudar para a aba Notebook e acessar o Jupyter Notebook para praticar.

Às vezes, pode ser necessário aguardar alguns segundos para que o Jupyter Notebook termine de carregar. A validação das operações não pode ser automatizada devido a limitações no Jupyter Notebook.

Se você enfrentar problemas durante o aprendizado, sinta-se à vontade para perguntar ao Labby. Forneça feedback após a sessão, e resolveremos o problema prontamente.

Este é um Lab Guiado, que fornece instruções passo a passo para ajudá-lo a aprender e praticar. Siga as instruções cuidadosamente para completar cada etapa e ganhar experiência prática. Dados históricos mostram que este é um laboratório de nível iniciante com uma taxa de conclusão de 98%. Recebeu uma taxa de avaliações positivas de 100% dos estudantes.

Importando as Bibliotecas e Dados Necessários

Primeiramente, precisamos importar a biblioteca Pandas e o conjunto de dados do Titanic.

## Import pandas library
import pandas as pd

## Load the Titanic dataset
titanic = pd.read_csv("data/titanic.csv")
titanic.head()

Selecionando uma Única Coluna

Para selecionar uma única coluna, use os colchetes [] com o nome da coluna de interesse.

## Select the 'Age' column
ages = titanic["Age"]

## Display the first 5 rows
ages.head()

Selecionando Múltiplas Colunas

Para selecionar múltiplas colunas, use uma lista de nomes de colunas dentro dos colchetes de seleção [].

## Select the 'Age' and 'Sex' columns
age_sex = titanic[["Age", "Sex"]]

## Display the first 5 rows
age_sex.head()

Filtrando Linhas Específicas

Para selecionar linhas com base em uma expressão condicional, use a condição dentro dos colchetes de seleção [].

## Filter rows where 'Age' is greater than 35
above_35 = titanic[titanic["Age"] > 35]

## Display the first 5 rows
above_35.head()

Selecionando Linhas e Colunas Específicas

Para selecionar tanto linhas quanto colunas de uma só vez, usamos os operadores loc ou iloc.

## Select 'Name' of passengers older than 35
adult_names = titanic.loc[titanic["Age"] > 35, "Name"]

## Display the first 5 rows
adult_names.head()

Resumo

Neste laboratório, aprendemos como selecionar e filtrar dados de um DataFrame em Pandas. Aprendemos como selecionar colunas únicas ou múltiplas, filtrar linhas com base em certas condições e selecionar linhas e colunas específicas. Essas operações são fundamentais na análise e manipulação de dados com Pandas.