On commence le match avec le flux de données.
Contexte
Afin de découvrir les différents types de traitement proposé par Microsoft Fabric, je vous ai proposé un match entre 3 différentes possibilités : Préparation de données avec Microsoft Fabric, le match !.
Je me propose ici de réaliser les transformations avec un flux de données.
Pour rappel, un flux de données est simplement du Power Query Online. On retrouve la même interface Power Query que dans Power BI mais les traitements sont exécutés dans le service Microsoft Fabric.
Les flux de de données que l’on va utiliser sont les nouveaux flux de données disponibles dans Microsoft Fabric : Flus de données Gen2. La principale différence avec les flux de données classique est que vous pouvez choisir dans quelle destination Power Query écrit le résultat.
Création de notre flux de données
Rendez-vous dans l’espace de travail Fabric - Le match [Silver] créer dans l’article de préparation du match. Et passer sur l’expérience utilisateur Data Factory.
- Dans le menu de l’espace de travail, appuyez sur + Nouveau.
- Sélectionnez Flux de données Gen2.
L’éditeur Power Query Online s’ouvre.
La création d’un flux de données provoque la création automatique de :
- Un lakehouse et son point de terminaison SQL.
- Un jeu de données par défaut.
Tâches préparatoires à une transformation de données
Charger les données
Pour charger les données, nous retrouvons la procédure classique de Power Query :
- Allez dans le menu Accueil.
- Appuyez sur l’icône Obtenir les données.
- Sélectionnez Lakehouse.
- Les éléments s’autoconfigurent, vous avez juste à appuyer sur Suivant.
- Ouvrez votre espace de travail, ici Fabric - Le match [Silver].
- Ouvrez votre lakehouse, ici LeMatch.
- Ouvrez Fichiers.
- Ouvrez le raccourci Bronze_Le_Match.
- Sélectionnez le fichier countries.csv.
- Appuyez sur Créer pour créer une requête dans Power Query qui ce connecte au fichier.
Obtenir un échantillonnage des données
Après la création de la requête, Power Query vous affiche automatiquement un échantillon de vos données limité aux 100 premières lignes.
Voir les métadonnées du jeu de données
Dans notre cas la première ligne contient le nom des colonnes, nous allons donc utiliser la fonction Utiliser la première ligne pour les en-têtes afin d’avoir les bons noms de colonne, et nous allons laisser Power Query détecter le type de données des colonnes.
- Allez dans le menu Accueil.
- Appuyez sur l’icône Utiliser la première ligne pour les en-têtes.
- 2 étapes sont automatiquement créées, la seconde et le résultat de l’autodetection des types de données de la colonne par Power Query. Cette étape peut être modifiée si le résultat ne vous convient pas.
- Les métadonnées sont lisibles directement sur les en-t^tes de colonnes. L’icône correspond aux types de données.
❗ Pour les sources de données exposant les métadonnées, comme les bases de données ou les fichiers Parquet, ces dernières sont automatiquement lu depuis la source.
Réaliser les transformations
Sélectionner certaines colonnes
Pour ne sélectionner que les 3 colonnes name, currencies et capital, on procède ainsi :
- Allez dans le menu Accueil.
- Appuyez sur l’icône Choisir des colonnes.
- Sélectionnez les colonnes.
- Appuyez sur OK.
Voici le résultat :
Supprimer l’étape nouvellement créée avant de passer à la suite.
Filtrer les lignes à conserver
Pour ne sélectionner que les lignes ayant pour valeur EUR dans la colonne currencies, on procède ainsi :
- Appuyez sur le bouton au niveau de la colonne à filtrer.
- Définissez votre filtre.
- Appuyez sur OK.
Modifier le nom des colonnes
Pour renommer les 3 colonnes name, currencies et capital, en nom, devise et capitale, on procède ainsi :
- Faite un clic droit sur l’en-tête de la colonne à renommée.
- Choisissez Renommer… dans le menu, vous pourrez ensuite renommer la colonne.
Vous pouvez aussi double-cliquer sur le nom de la colonne ou la sélectionner et appuyer sur la touche F2.
Modifier le type de données des colonnes
Pour convertir la colonne area qui est de type nombre décimal en nombre entier, on procède ainsi :
- Faite un clic sur l’icône représentant le type de données dans l’en-tête de la colonne.
- Choisissez le nouveau type.
- Vous pouvez aussi passer par le menu Accueil
- Et choisir l’item Type de données.
Gestion des valeurs absentes
Pour remplacer les valeurs vides par la valeur -1 de la colonne landlocked, on procède ainsi :
- Sélectionnez la colonne landlocked.
- Allez dans le menu Transformer.
- Sélectionnez Remplacer les valeurs.
- Recherchez la valeur null.
- Remplacer là par la valeur -1.
- Appuyez sur OK.
Enlever les doublons
Pour obtenir la liste des devises dédoublonnée, on procède ainsi :
On commence par ne conserver que la liste des devises.
- Faite un clic droit sur l’en-tête de la colonne currencies.
- Choisissez Supprimer les autres colonnes dans le menu.
- Allez dans le menu Accueil.
- Appuyez sur le texte Supprimer les lignes.
- Sélectionnez Supprimer les doublons.
On obtient le résultat suivant :
Sauvegarder le résultat dans la couche Silver
Le résultat que l’on souhaite conserver dans la couche silver est le résultat de ka section Filtrer les lignes à conserver ci-dessus.
Pour enregistrer le résultat de la requête Power query dans le lakehouse, on procède ainsi :
- En bas droite de l’éditeur Power Query, appuyez sur le + au niveau de Destination des données.
- Choisir Lakehouse dans la liste.
- Les éléments s’autoconfigurent, vous avez juste à appuyer sur Suivant.
La sauvegarde se fait obligatoirement dans une table. Por rappel les tables du lakehouse sont des fichiers managés par le système au format delta lake, vous pouvez les utiliser dans des requêtes SQL via le point de terminaisonSQL associé au lakehouse.
- Sélectionnez Nouvelle table
- Ouvrez votre espace de travail, ici Fabric - Le match [Silver].
- Ouvrez votre lakehouse, ici LeMatch.
- Entrez le nom de votre table ici LeMatchDataflow.
- Appuyez sur Suivant.
Vous pouvez ensuite choisir les paramètres de mise à jour de la table et le mapping des colonnes. On laisse tout par défaut.
- Appuyez sur Enregistrer les paramètres.
- Vos paramètres peuvent être édités ici via la roue crantée.
- Appuyez sur Publier pour publier votre flux de données et l’exécuter.
Suite à sa publication, votre flux de données s’actualise automatiquement, vous pouvez l’actualiser manuellement dans l’espace de travail.
Nous allons maintenant vérifier le résultat, pour cale rendez-vous dans le lakehouse de l’espace de travail Fabric - Le match [Silver].
- Dans l’explorateur du lakehouse ouvrez Tables
- Votre nouvelle table est bien créée.
Pour enregistrer le résultat dans un fichier du lakehouse, on procède ainsi :
Merci de votre attention.