Especificar linha de cabeçalho em read_csv
Nesta etapa, exploraremos o parâmetro header da função read_csv.
Por padrão, read_csv assume que a primeira linha não comentada e não ignorada em seu arquivo é a linha de cabeçalho contendo os nomes das colunas. Em nosso arquivo data.csv, após ignorar as linhas de comentário, a linha id,name,age,city é corretamente inferida como o cabeçalho.
O parâmetro header permite que você especifique explicitamente qual linha usar como cabeçalho. Ele recebe um inteiro representando o índice da linha (começando em 0). Como a primeira linha de dados (após os comentários) é o nosso cabeçalho, seu índice é 0.
Vamos modificar o arquivo main.py para definir explicitamente header=0. Embora este seja o comportamento padrão em nosso caso, ser explícito pode prevenir erros com arquivos formatados de forma incomum.
Atualize seu main.py com o seguinte código:
import pandas as pd
## Explicitly specify that the first row (index 0) after comments is the header
df = pd.read_csv('data.csv', comment='#', header=0)
print(df)
Execute o script novamente a partir do terminal:
python3 main.py
A saída será idêntica à etapa anterior, pois apenas confirmamos o comportamento padrão. Esta prática é útil para clareza e robustez do código.
id name age city
0 1 Alice 25 New York
1 2 Bob 30 Los Angeles
2 3 Charlie Not Available London
3 4 David 35 N/A
4 5 Eve 22 Paris