Vous voulez traiter vos données dans Microsoft Fabric, mais vous êtes perdu ?
Pour vous faire votre avis, je vous propose un match entre les différents outils pour réaliser un même traitement de données simple.
Contexte
Dans mes 2 premiers articles sur Microsoft Fabric, je vous ai présenté :
- L’intégration de données en mode temps réel et le KQL.
- L’intégration de données en mode batch et les pipelines de données.
Maintenant que vos données sont dans votre zone bronze 🥉, il est temps de les raffiner pour les faire passer dans la zone silver 🥈.
Mais quels outils utilisés ? Je me propose de faire un match entre 3 possibilités disponibles dans Microsoft Fabric :
- Les flux de données (Power Query Online).
- Le SQL.
- Les blocs-notes (Python).
Le match !
Afin de comparer ces 3 solutions, je vous propose de la faire sur un exemple simple avec un résultat attendu identique pour les 3 possibilités.
Le but n’est pas de vous former, mais plutôt de vous montrer la logique et le travail n"céssaire à fournir pour chacune des options.
Pour ce match chaque solution devra réaliser les tâches suivantes :
- Tâches préparatoires à une transformation de données
- Charger les données depuis la zone bronze
- Obtenir un échantillonnage des données
- Voir les métadonnées du jeu de données
- Réaliser les transformations
- Sélectionner certaines colonnes
- Filtrer les lignes à conserver
- Modifier le nom des colonnes
- Modifier le type de données des colonnes
- Gestion des valeurs absentes
- Enlever les doublons
- Sauvegarder le résultat dans la zone silver
La préparation du match
Avant tout bon match, une préparation est nécessaire. Nous allons maintenant préparer un terrain de jeu commun à nos 3 solutions.
Création de la zone bronze 🥉
Rendez-vous sur le portail Power BI, Fabric doit être activé dans votre environnement, si ce n’est pas le cas, suivez ce tutoriel : Version d’évaluation de Microsoft Fabric.
Création de l’espace de travail
Dans le menu de gauche, sélectionnez Espace de travail, puis + Nouvel espace de travail.
- Nommez votre espace de travail Fabric - Le match [Bronze].
- Ouvrez les options avancées
- Sélectionnez un type d’espace de travail compatible avec les objets Micrsoft Fabric.
- Appuyez sur Appliquez pour créer votre espace de travail.
Sélection de l’expérience utilisateur
Afin de simplifier l’interface, Fabric est organisé autour de différentes expériences utilisateur afin de ne pas présenter l’ensemble des types objets disponible à tout le monde. Pour notre exemple nous pouvons utiliser l’expérience Data Factory ou Engineering données.
- Appuyez sur l’icône en bas à gauche de votre écran, si vous êtes arrivé par le portail Power BI vous trouver l’icône Power BI, sinon vous trouverez l’icône de l’expérience utilisateur en cours.
- Sélectionnez Data Factory
Après le changement d’expérience, vous devez vous repositionner dans votre espace de travail.
Création d’un lakeHouse
Nous allons maintenant créer un lakehouse dédié à notre exemple.
Un lakehouse est une espace de stockage acceptant n’importe quel type de données. Il sert de zone de stockage générique des données de notre couche bronze.
Dans l’écosystème Fabric un lakehouse est un sous-ensemble de OneLake, l’espace de stockage unifié de votre entreprise.
- Dans le menu de l’espace de travail, appuyez sur + Nouveau.
- Sélectionnez Lakehouse.
- Saisissez le nom du lakehouse, ici LeMatch qui est le nom de la source de données.
- Appuyez sur Créer pour créer le lakehouse.
L’écran qui s’affiche est l’explorateur de lakehouse.
- Dans l’explorateur de lakehouse, vous pouvez naviguer dans les dossiers.
- La section Files permet d’avoir la vision des fichiers bruts stockés dans le lakehouse, on parle de données non managées.
- La section Tables permet d’avoir la vision base de données des fichiers dans le lakehouse et de pouvoir les requêter avec le langage SQL, on parle de données managées.
- Vous pouvez passer de la vue lakehouse à la vue point de terminaison SQL ici.
Restez dans l’explorateur de lakehouse.
Chargement du fichier servant pour le match dans la zone bronze
Nous allons commencer par charger le fichier sur votre poste de travail. Faite un clic droit sur le lien du fichier et choisissez Enregistrer sous pour le sauvegarder en local.
Nous allons créer un dossier pour contenir notre fichier.
- Dans l’explorateur de lakehouse appuyez sur les 3 points face au dossier Files.
- Sélectionnez Nouveau sous-dossier.
- Saisissez le nom du dossier, ici Bronze_Le_Match. ⚠ Le nom ne dois pas comporter d’espace ou de caractères spéciaux hors le _ pour la suite de la démonstration.
- Appuyez sur Créer pour créer le dossier.
- Dans l’explorateur de lakehouse appuyez sur les 3 points face au dossier [Bronze] Le match dans le dossier Files.
- Ouvrez le sous-menu Charger.
- Sélectionnez Charger des fichiers.
- Appuyez sur l’icône du dossier pour parcourir vos données locales et sélectionnez le fichier countries.csv sauvegardé.
- Appuyez sur Charger pour charger manuellement le fichier dans le lakehouse.
- Une fois l’opération terminée vous en êtes informé.
Vous avez maintenant votre fichier dans la zone bronze.
Création de la zone silver 🥈
Nous allons maintenant créer une zone silver pour accueillir les traitements et le données résultante de ces derniers.
Pour cela nous allons créer un espace de travail et un lakehouse en reprenant les étapes précédentes.
- Nom de l’espace de travail : Fabric - Le match [Silver]
- Nom du lakehouse : LeMatch
Création d’un raccourci vers la zone bronze.
Afin que les traitements de la zone silver puissent utiliser les données de la zone bronze sans réaliser de copie, nous allons créer un raccourci du dossier contenant les données dans la zone silver.
- Dans l’explorateur de lakehouse appuyez sur les 3 points face au dossier Files.
- Sélectionnez Nouveau raccourci.
- Sélectionnez Microsoft OneLake.
- Sélectionnez le lakehouse de la zone bronze.
- Appuyez sur Suivant pour continuer.
- Ouvrez le dossier Files.
- Sélectionnez le dossier Bronze_Le_Match.
- Appuyez sur Créer pour créer le raccourci.
Vous avez maintenant votre raccourci dans la zone silver.
Le terrain de jeu est prêt, c’est parti
Vous retrouverez ici les liens vers chaque partie du match :
Merci de votre attention.