Importation de données depuis un fichier CSV
Pour importer des données depuis un fichier CSV dans une table Hive, vous pouvez utiliser l'instruction LOAD DATA
. Voici un exemple :
LOAD DATA INPATH '/path/to/sales.csv'
OVERWRITE INTO TABLE sales;
Dans cet exemple, l'instruction LOAD DATA
est utilisée pour charger les données depuis le fichier /path/to/sales.csv
dans la table sales
. L'option OVERWRITE
remplacera toutes les données existantes dans la table.
Vous pouvez également charger des données depuis un fichier CSV dans une table Hive partitionnée. Voici un exemple :
LOAD DATA INPATH '/path/to/sales_partitioned.csv'
OVERWRITE INTO TABLE sales_partitioned
PARTITION (year=2022, month=1);
Dans ce cas, les données du fichier /path/to/sales_partitioned.csv
sont chargées dans la table sales_partitioned
, avec la partition year
définie sur 2022 et la partition month
définie sur 1.
Voici quelques points à prendre en compte lors du chargement de données depuis un fichier CSV dans une table Hive :
Assurez-vous que le format du fichier CSV correspond à la définition de la table, y compris le délimiteur de champ, la ligne d'en-tête (le cas échéant) et les types de données.
Types de données
Hive déduit automatiquement les types de données en fonction des premières lignes du fichier CSV. Assurez-vous que les types de données déduits correspondent à la définition de votre table.
Partitionnement
Si vous utilisez des tables partitionnées, assurez-vous que les colonnes de partition sont correctement spécifiées dans la clause PARTITION
de l'instruction LOAD DATA
.
Pour de grands ensembles de données, vous pouvez améliorer les performances en utilisant la commande MSCK REPAIR TABLE
pour mettre à jour les métadonnées de partition après avoir chargé les données.
MSCK REPAIR TABLE sales_partitioned;
Cette commande analysera le répertoire HDFS et mettra à jour les informations de partition dans le metastore Hive.
En suivant ces directives, vous pouvez importer efficacement des données depuis un fichier CSV dans une table Hive, en tirant parti des fonctionnalités d'abstraction des données et de mise à l'échelle d'Hive.