Featured image of post Préparation de données avec Microsoft Fabric, les résultats

Préparation de données avec Microsoft Fabric, les résultats

Le match est terminé qu’elles sont les résultats ?

Contexte

Je vous ai présenté 3 des outils de préparation de données disponible dans Microsoft Fabric.

Après ce match où chacun vous a montré ces capacités, c’est l’heure du verdict !

Flux de données

C’est l’outil No code par excellence, parfait pour des utilisateurs non techniques.
Si vos utilisateurs ont une expérience avec Power BI, ils retrouveront leurs habitudes.
Cet outil est parfait pour les usages classiques, mais ne répondras probablement pas du tout ou difficilement à des usages avancés comme :

  • Partitionnement intelligent des nos donnés.
  • Historisation des données.
  • Gestion des dimensions à variation lente.

Ma vision de l’outil :

  • Il couvre 70 à 80 % des traitements à réaliser.
  • Il ne gère pas ou mal les formats non structurés.
  • Il peut être pris en main par tous les publics avec un minimum d’expérience data.

SQL

C’est un grand-père de la data, le SQL a fait ses preuves et il est parfait quand on travaille avec de la donnée structurée.
Si vous avez des projets data existant, vous y trouverez certainement des requêtes SQL pouvant être réutilisées avec un minimum d’adaptation. Vous allez pouvoir recycler vos vieux projets dans Fabric.

Ma vision de l’outil :

  • Il couvre 80 à 90 % des traitements à réaliser.
  • Il ne gère pas ou mal les formats non structurés.
  • Il peut être pris en main par toutes personnes avec une expérience SQL.
  • Pratique pour migrer des traitements existants basés sur le SQL.

Spark Python

C’est un des outils phares de l’écosystème daté moderne.
Grâce à de nombreuses librairies Python, mais aussi avec la possibilité de passer sur d’autre langage comme R, cet outil est un vrai couteau suisse.
La communauté et la documentation sont aussi très riches? Si vous utilisez par exemple Pandas, vous trouverez des milliers d’exemples d’utilisation afin d’avancer plus rapidement.

Ma vision de l’outil :

  • Il couvre 100 % des traitements à réaliser.
  • Il gère les formats non structurés.
  • Plus difficile à prendre en main, il nécessite un profil maitrisant les concepts data et la programmation.
  • Cette option rassure les DSI car les traitements réalisés sont moins dépendants de la plateforme que les autres solutions.

Lequel choisir ?

À cette question je répondrais simplement : pourquoi choisir ?
Tous les membres de votre entreprise qui font de la data ont le même profil ?
Probablement pas, où alors vous êtes la seule personne à faire de la data dans votre entreprise 😨.

Donc pourquoi choisir ?
Avec Fabric vous avez un outil qui vous permet d’utiliser le résultat des traitements d’une autre personne facilement grâce à OneLake, le datalake unifié sous vos lakehouse et warehouse. Par exemple, un utilisateur métier peut alimenter un lakehouse avec un dataflow et un data scientist peut consommé cette donnée dans un traitement en Python.

Par contre il y a un revers à la médaille, cette grande liberté au sein de l’outil va demander de mettre en place une gouvernance rigoureuse afin de ne pas transformer votre environnement.

Culture Data

En résumé, Microsoft Fabric n’est qu’un outil et ne vous affranchira la mise en place dans votre entreprise d’une culture data forte. Pour cela vous devrez fédérer une communauté interne autour de la data et mettre en place un ensemble d’outils, avec notamment :

Merci de votre attention.

comments powered by Disqus
Généré avec Hugo
Thème Stack conçu par Jimmy