Data Warehousing et Business Intelligence
Quelle est la principale différence entre les systèmes OLTP et OLAP ?
Réponse :
Les systèmes OLTP (Online Transaction Processing) sont optimisés pour les transactions courtes et à haut volume (par exemple, la saisie de commandes), en se concentrant sur l'intégrité des données et la concurrence. Les systèmes OLAP (Online Analytical Processing) sont optimisés pour les requêtes complexes et les charges de travail analytiques, en se concentrant sur l'agrégation des données et l'analyse historique pour la prise de décision.
Expliquez le concept d'entrepôt de données (data warehouse) et son objectif.
Réponse :
Un entrepôt de données est un référentiel centralisé de données intégrées provenant d'une ou plusieurs sources disparates. Son objectif est de stocker les données historiques et actuelles de manière structurée, permettant des activités de reporting analytique, de business intelligence et de data mining sans impacter les systèmes opérationnels.
Qu'est-ce que l'ETL et pourquoi est-il crucial dans le data warehousing ?
Réponse :
ETL signifie Extract, Transform, Load (Extraire, Transformer, Charger). C'est le processus d'extraction des données des systèmes sources, de leur transformation dans un format cohérent adapté à l'analyse, et de leur chargement dans l'entrepôt de données. L'ETL est crucial car il garantit la qualité, la cohérence et la préparation des données pour les applications de business intelligence.
Différenciez un data mart d'un data warehouse.
Réponse :
Un data warehouse est à l'échelle de l'entreprise, couvrant tous les domaines thématiques d'une organisation. Un data mart est un sous-ensemble d'un data warehouse, généralement axé sur un département ou une fonction commerciale spécifique (par exemple, ventes, marketing), fournissant des données adaptées à des groupes d'utilisateurs spécifiques.
Que sont les tables de faits (fact tables) et les tables de dimensions (dimension tables) dans un schéma en étoile (star schema) ?
Réponse :
Les tables de faits stockent des mesures quantitatives (métriques) et des clés étrangères vers les tables de dimensions. Les tables de dimensions stockent des attributs descriptifs liés aux faits (par exemple, temps, produit, client). Cette structure optimise les performances des requêtes à des fins analytiques.
Expliquez le concept de dimensions à évolution lente (slowly changing dimensions - SCDs) et donnez un exemple de Type 2.
Réponse :
Les SCDs sont des dimensions dont les attributs changent au fil du temps. Les SCDs de Type 2 suivent les changements historiques en ajoutant de nouvelles lignes à la table de dimensions pour chaque changement, généralement avec des dates de début et de fin, et un indicateur de statut actuel. Par exemple, si l'adresse d'un client change, une nouvelle ligne est ajoutée pour le client avec la nouvelle adresse et une nouvelle plage de dates d'effet.
Quel est le rôle de la modélisation dimensionnelle de Kimball dans le data warehousing ?
Réponse :
La modélisation dimensionnelle de Kimball se concentre sur la conception d'entrepôts de données à l'aide de schémas en étoile ou en flocon de neige (snowflake schemas), en mettant l'accent sur la facilité d'utilisation pour les utilisateurs métier et les performances des requêtes. Elle promeut l'utilisation de dimensions et de tables de faits conformes (conformed dimensions and fact tables) pour intégrer les données entre différents processus métier.
Réponse :
La gouvernance des données établit des politiques et des procédures pour la disponibilité, l'utilisabilité, l'intégrité et la sécurité des données. Dans le data warehousing et la BI, elle garantit que les données utilisées pour l'analyse sont exactes, cohérentes, conformes et fiables, conduisant à des informations et des décisions fiables.
Quel est le but d'un cube de données (data cube) en OLAP ?
Réponse :
Un cube de données est un tableau multidimensionnel de données, généralement pré-agrégé, utilisé pour l'analyse rapide des données sous différents angles. Il permet aux utilisateurs d'effectuer rapidement des opérations telles que le découpage (slicing), le segmentage (dicing), le forage (drill-down) et le regroupement (roll-up) sur de grands ensembles de données, améliorant ainsi les performances des requêtes OLAP.
Citez quelques outils courants de Business Intelligence (BI) et leur fonction générale.
Réponse :
Les outils de BI courants incluent Tableau, Power BI et Qlik Sense. Leur fonction générale est de permettre aux utilisateurs de visualiser les données, de créer des tableaux de bord et des rapports interactifs, et d'effectuer des analyses ad-hoc pour obtenir des informations et soutenir la prise de décision basée sur les données.