Especificar fila de encabezado en read_csv
En este paso, exploraremos el parámetro header de la función read_csv.
Por defecto, read_csv asume que la primera fila no comentada y no omitida en su archivo es la fila de encabezado que contiene los nombres de las columnas. En nuestro archivo data.csv, después de omitir las líneas de comentario, la línea id,name,age,city se infiere correctamente como el encabezado.
El parámetro header le permite especificar explícitamente qué fila usar como encabezado. Toma un entero que representa el índice de la fila (comenzando desde 0). Dado que la primera línea de datos (después de los comentarios) es nuestro encabezado, su índice es 0.
Modifiquemos el archivo main.py para establecer explícitamente header=0. Aunque este es el comportamiento predeterminado en nuestro caso, ser explícito puede prevenir errores con archivos con formato inusual.
Actualice su main.py con el siguiente código:
import pandas as pd
## Especifica explícitamente que la primera fila (índice 0) después de los comentarios es el encabezado
df = pd.read_csv('data.csv', comment='#', header=0)
print(df)
Ejecute el script nuevamente desde la terminal:
python3 main.py
La salida será idéntica al paso anterior, ya que solo hemos confirmado el comportamiento predeterminado. Esta práctica es útil para la claridad y robustez del código.
id name age city
0 1 Alice 25 New York
1 2 Bob 30 Los Angeles
2 3 Charlie Not Available London
3 4 David 35 N/A
4 5 Eve 22 Paris