Introdução
O método Pandas DataFrame.diff() calcula a diferença entre elementos em um DataFrame. Ele fornece a primeira diferença discreta dos elementos, calculando a diferença de um elemento do DataFrame em comparação com outro elemento no DataFrame. Por padrão, o método calcula a diferença com o elemento anterior na linha.
Dicas para a VM
Após a inicialização da VM, clique no canto superior esquerdo para mudar para a aba Notebook e acessar o Jupyter Notebook para praticar.
Às vezes, pode ser necessário aguardar alguns segundos para que o Jupyter Notebook termine de carregar. A validação das operações não pode ser automatizada devido às limitações do Jupyter Notebook.
Se você enfrentar problemas durante o aprendizado, sinta-se à vontade para perguntar ao Labby. Forneça feedback após a sessão, e resolveremos o problema prontamente para você.
Importar as bibliotecas necessárias
Para usar o método DataFrame.diff(), primeiro precisamos importar a biblioteca pandas:
import pandas as pd
Criar um DataFrame
Em seguida, vamos criar um DataFrame que podemos usar para os exemplos:
df = pd.DataFrame({'a': [1, 3, 8],'b': [3, 5, 8],'c': [16, 25, 36]})
Nosso DataFrame tem três colunas ('a', 'b', 'c') e três linhas.
Calcular a diferença com a linha anterior
Para calcular a diferença com a linha anterior, podemos simplesmente chamar o método diff() em nosso DataFrame:
diff_previous_row = df.diff()
Isso calculará a diferença entre cada elemento e o elemento anterior na linha.
Calcular a diferença entre colunas anteriores
Se quisermos calcular a diferença entre colunas anteriores em vez de linhas anteriores, podemos especificar o parâmetro axis como 1:
diff_previous_column = df.diff(axis=1)
Isso calculará a diferença entre cada elemento e o elemento anterior na coluna.
Calcular a diferença com uma linha anterior específica
Também podemos calcular a diferença com uma linha anterior específica especificando o parâmetro periods. Por exemplo, para calcular a diferença com a segunda linha anterior, podemos definir periods como 2:
diff_second_previous_row = df.diff(periods=2)
Isso calculará a diferença entre cada elemento e o elemento duas linhas antes.
Calcular a diferença com uma coluna anterior específica
Da mesma forma, podemos calcular a diferença com uma coluna anterior específica especificando os parâmetros periods e axis. Por exemplo, para calcular a diferença com a terceira coluna anterior, podemos definir periods como 3 e axis como 1:
diff_third_previous_column = df.diff(periods=3, axis=1)
Isso calculará a diferença entre cada elemento e o elemento três colunas antes.
Resumo
O método DataFrame.diff() em Pandas permite calcular a diferença entre elementos em um DataFrame. Podemos calcular a diferença com linhas anteriores ou colunas anteriores, bem como com linhas ou colunas anteriores específicas. Este método é útil ao analisar dados de séries temporais ou ao comparar valores entre linhas ou colunas consecutivas. Ao usar o método diff(), podemos facilmente computar as mudanças ou diferenças em nosso DataFrame.