Featured image of post Préparation de données avec Microsoft Fabric, les flux de données

Préparation de données avec Microsoft Fabric, les flux de données

On commence le match avec le flux de données.

Contexte

Afin de découvrir les différents types de traitement proposé par Microsoft Fabric, je vous ai proposé un match entre 3 différentes possibilités : Préparation de données avec Microsoft Fabric, le match !.

Je me propose ici de réaliser les transformations avec un flux de données.

Pour rappel, un flux de données est simplement du Power Query Online. On retrouve la même interface Power Query que dans Power BI mais les traitements sont exécutés dans le service Microsoft Fabric.
Les flux de de données que l’on va utiliser sont les nouveaux flux de données disponibles dans Microsoft Fabric : Flus de données Gen2. La principale différence avec les flux de données classique est que vous pouvez choisir dans quelle destination Power Query écrit le résultat.

Création de notre flux de données

Rendez-vous dans l’espace de travail Fabric - Le match [Silver] créer dans l’article de préparation du match. Et passer sur l’expérience utilisateur Data Factory.

Création d’un flux de données

  1. Dans le menu de l’espace de travail, appuyez sur + Nouveau.
  2. Sélectionnez Flux de données Gen2.

L’éditeur Power Query Online s’ouvre.

Editeur Power Query Online

La création d’un flux de données provoque la création automatique de :

  • Un lakehouse et son point de terminaison SQL.
  • Un jeu de données par défaut.

Tâches préparatoires à une transformation de données

Charger les données

Pour charger les données, nous retrouvons la procédure classique de Power Query :

Chargement des données - étape 1

  1. Allez dans le menu Accueil.
  2. Appuyez sur l’icône Obtenir les données.

Chargement des données - étape 2

  1. Sélectionnez Lakehouse.

Chargement des données - étape 3

  1. Les éléments s’autoconfigurent, vous avez juste à appuyer sur Suivant.

Chargement des données - étape 4

  1. Ouvrez votre espace de travail, ici Fabric - Le match [Silver].
  2. Ouvrez votre lakehouse, ici LeMatch.
  3. Ouvrez Fichiers.
  4. Ouvrez le raccourci Bronze_Le_Match.
  5. Sélectionnez le fichier countries.csv.
  6. Appuyez sur Créer pour créer une requête dans Power Query qui ce connecte au fichier.

Obtenir un échantillonnage des données

Après la création de la requête, Power Query vous affiche automatiquement un échantillon de vos données limité aux 100 premières lignes.

Affichage d’un échantillon de données

Voir les métadonnées du jeu de données

Dans notre cas la première ligne contient le nom des colonnes, nous allons donc utiliser la fonction Utiliser la première ligne pour les en-têtes afin d’avoir les bons noms de colonne, et nous allons laisser Power Query détecter le type de données des colonnes.

Affichage des métadonnées

  1. Allez dans le menu Accueil.
  2. Appuyez sur l’icône Utiliser la première ligne pour les en-têtes.
  3. 2 étapes sont automatiquement créées, la seconde et le résultat de l’autodetection des types de données de la colonne par Power Query. Cette étape peut être modifiée si le résultat ne vous convient pas.
  4. Les métadonnées sont lisibles directement sur les en-t^tes de colonnes. L’icône correspond aux types de données.

❗ Pour les sources de données exposant les métadonnées, comme les bases de données ou les fichiers Parquet, ces dernières sont automatiquement lu depuis la source.

Réaliser les transformations

Sélectionner certaines colonnes

Pour ne sélectionner que les 3 colonnes name, currencies et capital, on procède ainsi :

Sélection des colonnes

  1. Allez dans le menu Accueil.
  2. Appuyez sur l’icône Choisir des colonnes.
  3. Sélectionnez les colonnes.
  4. Appuyez sur OK.

Voici le résultat :

Résultat de la sélection des colonnes

Supprimer l’étape nouvellement créée avant de passer à la suite.

Filtrer les lignes à conserver

Pour ne sélectionner que les lignes ayant pour valeur EUR dans la colonne currencies, on procède ainsi :

Filtrer une colonne

  1. Appuyez sur le bouton au niveau de la colonne à filtrer.
  2. Définissez votre filtre.
  3. Appuyez sur OK.

Modifier le nom des colonnes

Pour renommer les 3 colonnes name, currencies et capital, en nom, devise et capitale, on procède ainsi :

Renommer une colonne

  1. Faite un clic droit sur l’en-tête de la colonne à renommée.
  2. Choisissez Renommer… dans le menu, vous pourrez ensuite renommer la colonne.

Vous pouvez aussi double-cliquer sur le nom de la colonne ou la sélectionner et appuyer sur la touche F2.

Modifier le type de données des colonnes

Pour convertir la colonne area qui est de type nombre décimal en nombre entier, on procède ainsi :

Modifier le type d’une colonne

  1. Faite un clic sur l’icône représentant le type de données dans l’en-tête de la colonne.
  2. Choisissez le nouveau type.
  3. Vous pouvez aussi passer par le menu Accueil
  4. Et choisir l’item Type de données.

Gestion des valeurs absentes

Pour remplacer les valeurs vides par la valeur -1 de la colonne landlocked, on procède ainsi :

Remplacer les valeurs vides

  1. Sélectionnez la colonne landlocked.
  2. Allez dans le menu Transformer.
  3. Sélectionnez Remplacer les valeurs.
  4. Recherchez la valeur null.
  5. Remplacer là par la valeur -1.
  6. Appuyez sur OK.

Résultat du remplacement des valeurs vides

Enlever les doublons

Pour obtenir la liste des devises dédoublonnée, on procède ainsi :

On commence par ne conserver que la liste des devises.

Obtenir la liste des devises

  1. Faite un clic droit sur l’en-tête de la colonne currencies.
  2. Choisissez Supprimer les autres colonnes dans le menu.

Supprimer les doublons

  1. Allez dans le menu Accueil.
  2. Appuyez sur le texte Supprimer les lignes.
  3. Sélectionnez Supprimer les doublons.

On obtient le résultat suivant :

Résultat de la suppression des doublons

Sauvegarder le résultat dans la couche Silver

Le résultat que l’on souhaite conserver dans la couche silver est le résultat de ka section Filtrer les lignes à conserver ci-dessus.

Pour enregistrer le résultat de la requête Power query dans le lakehouse, on procède ainsi :

Sélection de la destination - étape 1

  1. En bas droite de l’éditeur Power Query, appuyez sur le + au niveau de Destination des données.
  2. Choisir Lakehouse dans la liste.

Sélection de la destination - étape 2

  1. Les éléments s’autoconfigurent, vous avez juste à appuyer sur Suivant.

La sauvegarde se fait obligatoirement dans une table. Por rappel les tables du lakehouse sont des fichiers managés par le système au format delta lake, vous pouvez les utiliser dans des requêtes SQL via le point de terminaisonSQL associé au lakehouse.

Sélection de la destination - étape 3

  1. Sélectionnez Nouvelle table
  2. Ouvrez votre espace de travail, ici Fabric - Le match [Silver].
  3. Ouvrez votre lakehouse, ici LeMatch.
  4. Entrez le nom de votre table ici LeMatchDataflow.
  5. Appuyez sur Suivant.

Vous pouvez ensuite choisir les paramètres de mise à jour de la table et le mapping des colonnes. On laisse tout par défaut.

Sélection de la destination - étape 4

  1. Appuyez sur Enregistrer les paramètres.

Sélection de la destination - fin

  1. Vos paramètres peuvent être édités ici via la roue crantée.
  2. Appuyez sur Publier pour publier votre flux de données et l’exécuter.

Suite à sa publication, votre flux de données s’actualise automatiquement, vous pouvez l’actualiser manuellement dans l’espace de travail.

Nous allons maintenant vérifier le résultat, pour cale rendez-vous dans le lakehouse de l’espace de travail Fabric - Le match [Silver].

Nouvelle table présente dans le lakehouse

  1. Dans l’explorateur du lakehouse ouvrez Tables
  2. Votre nouvelle table est bien créée.

Pour enregistrer le résultat dans un fichier du lakehouse, on procède ainsi :

Merci de votre attention.

comments powered by Disqus
Généré avec Hugo
Thème Stack conçu par Jimmy