Qu'est-ce qu'OneLake ?

Microsoft OneLake est un lac de données unifié pour toute votre organisation. Chaque locataire Microsoft Fabric inclut automatiquement OneLake, et il s'agit de l'emplacement unique pour toutes vos données d'analyse. Il s’agit d’un référentiel central dans lequel vous pouvez stocker, gérer et régir toutes vos données pour les charges de travail d’analyse et d’IA au sein de l’organisation.

OneLake est basé sur Azure Data Lake Storage et stocke des tables au format Delta Parquet ou Iceberg, deux normes ouvertes que n’importe quel outil peut lire. Cette approche signifie que vos données ne sont pas verrouillées dans des formats propriétaires.

OneLake fournit :

  • Stockage de données unifié pour l’ensemble de l’organisation avec une gouvernance et une sécurité intégrées
  • Une copie de données à utiliser avec plusieurs moteurs analytiques sans duplication
  • Connectivité flexible via l’Explorateur de fichiers, les API ADLS Gen2 et les intégrations de service Azure
  • Protection et surveillance des données avec redondance intégrée, récupération d’urgence et diagnostics d’accès

Stockage de données unifié

Avant OneLake, les organisations ont souvent créé plusieurs lacs pour différents groupes d’entreprises, ce qui a entraîné une surcharge supplémentaire pour la gestion de plusieurs ressources. Cette approche en silo a rendu difficile la collaboration entre les équipes, ralentit les projets de données et augmente le risque de duplication.

OneLake résout ces défis en vous donnant un point d’accès aux données central pour l’ensemble de l’organisation. Chaque locataire Fabric est fourni avec une seule instance OneLake. Vous ne pouvez pas supprimer OneLake ni créer plusieurs OneLakes, et il n’existe aucune infrastructure à provisionner ou à gérer. Les services, les équipes et les projets peuvent stocker ou se connecter à leurs données dans ce lac unifié et l’organiser à l’aide de domaines, de sous-domaines et d’espaces de travail Fabric, chacun avec son propre administrateur. Ce modèle conserve la propriété des données et active la gouvernance fédérée, tout en permettant aux utilisateurs autorisés de découvrir et d’utiliser des données sans friction.

Géré de manière centralisée avec une propriété distribuée

Les données Fabric s’inscrivent dans la hiérarchie suivante en matière d’organisation et de gouvernance :

  • Locataire : les stratégies au niveau du locataire protègent automatiquement toutes les données qui atterrissent dans OneLake pour la sécurité, la conformité et la gestion des données.
  • Espace de travail : vous pouvez créer n’importe quel nombre d’espaces de travail dans votre locataire pour organiser vos données. Les espaces de travail permettent aux différentes parties de l'organisation de distribuer des politiques de propriété et d'accès. Chaque espace de travail fait partie d’une capacité liée à une région spécifique et facturée séparément.
  • Objets de données : les espaces de travail contiennent des objets de données tels que des lakehouses, des entrepôts, des eventhouses et des bases de données KQL. Chaque type d’élément est conçu pour des charges de travail spécifiques telles que l’analytique basée sur Spark, les requêtes T-SQL, la diffusion en continu en temps réel, etc.

Diagramme montrant la fonction et la structure de OneLake.

Pour plus d'informations, voir Espaces de travail.

Découvrir et gouverner avec le catalogue OneLake

Le catalogue OneLake est l’emplacement unique pour les professionnels des données et les utilisateurs professionnels pour découvrir, gérer et régir les données qu’ils possèdent et accéder à OneLake.

Les utilisateurs peuvent filtrer par domaine, espace de travail, type d’élément, approbations, et bien plus encore pour localiser exactement ce dont ils ont besoin, avec chaque élément de données enrichi par des métadonnées telles que des descriptions, des propriétaires, un schéma, une traçabilité et des métriques d’utilisation.

Les propriétaires de données peuvent obtenir des insights et des actions recommandées pour améliorer la qualité et la conformité des données, notamment la visibilité sur la couverture des étiquettes de confidentialité, l’étiquetage, les approbations et l’emplacement des données.

Pour plus d’informations, consultez le catalogue OneLake.

Security

Le modèle de sécurité de OneLake vous permet de partager des données à grande échelle sans exposer d’informations sensibles. En utilisant des rôles de sécurité OneLake, vous pouvez définir des autorisations granulaires sur les éléments de données, jusqu’à des dossiers, des tables ou même des lignes et des colonnes spécifiques. Par exemple, vous pouvez partager un jeu de données de ventes avec une équipe, mais restreindre l’accès à la Cost colonne, ou autoriser un partenaire à voir uniquement les lignes où Region = "US". OneLake stocke ces rôles et les applique automatiquement à toutes les expériences d’analyse. Par conséquent, si un utilisateur a accès à une partie uniquement d’un jeu de données, cette règle s’applique s’il interroge via SQL, exécute un notebook Spark ou affiche un rapport Power BI. OneLake s’assure qu’ils voient uniquement ce qu’ils sont autorisés à voir.

Cette approche unifiée de la sécurité signifie que les utilisateurs n’ont pas besoin de conserver des autorisations distinctes entre différents moteurs. Cela signifie également que les propriétaires de données d’origine conservent toujours le contrôle sur qui peut accéder à la source de données, même si les données sont transmises à un lakehouse ou à un espace de travail appartenant à quelqu’un d’autre.

Vous pouvez appliquer des étiquettes de confidentialité aux éléments OneLake comme vous le feriez dans un document, et ces étiquettes appliquent des restrictions de chiffrement ou d’accès, même si les données sont exportées vers Excel ou un autre outil. De même, les stratégies de protection contre la perte de données (DLP) peuvent détecter les chargements ou téléchargements de données sensibles à partir de OneLake et empêcher ou alerter sur les fuites de données potentielles.

Pour plus d’informations, consultez Prise en main de la sécurisation de vos données dans OneLake.

Une copie de données

Tous les moteurs d’analytique Fabric fonctionnent avec des données directement dans OneLake. Vous n’avez pas besoin de copier des données pour l’utiliser avec un autre moteur ou analyser des données à partir de plusieurs sources.

Raccourcis

Un raccourci est une référence aux données stockées dans d’autres emplacements de fichiers. Ces emplacements de fichiers peuvent se trouver dans le même espace de travail, un autre espace de travail dans OneLake ou externe à OneLake. Vous pouvez utiliser des raccourcis pour OneLake, Azure Data Lake Storage, le Stockage Blob Azure, Amazon S3 et des sources compatibles S3, des sources compatibles Iceberg, Microsoft Dataverse, des sources locales, et bien plus encore. Quel que soit l’emplacement, les raccourcis rendent les fichiers et les dossiers comme si vous les avez stockés localement.

Les raccourcis permettent à votre organisation d’unifier les données entre les clouds et les domaines sans les copier. Teams peut travailler indépendamment dans des espaces de travail distincts et utiliser des raccourcis pour partager des données entre elles au lieu de la dupliquer. Par exemple, une équipe peut créer un raccourci vers un jeu de données dans l’espace de travail d’une autre équipe ou vers un compartiment S3 externe, puis combiner ces données avec leurs propres données dans OneLake. Le raccourci pointe vers la source. Par conséquent, lorsque les données sources sont mises à jour, ces modifications sont immédiatement visibles via OneLake. De cette façon, vous pouvez créer des produits virtuels ou des vues qui rassemblent des données de plusieurs groupes d’entreprise pour répondre à un besoin spécifique, sans déplacer ou dupliquer les données. En utilisant des transformations de raccourci, vous pouvez même appliquer des modifications automatiques aux données, telles que la conversion du format de données ou la suppression d’informations d’identification personnelle (PII).

Diagramme montrant comment les raccourcis relient les données entre les espaces de travail et les éléments.

Pour plus d’informations sur l’utilisation des raccourcis, consultez Raccourcis OneLake.

Mirroring

La mise en miroir dans Fabric est une solution à faible coût et à faible latence qui réplique en permanence les données de différents systèmes dans OneLake. Vous pouvez vous connecter en toute sécurité à une source de données externe et mettre automatiquement en miroir (copier) des bases de données ou des tables sélectionnées dans le format ouvert de OneLake, en les gardant synchronisées en quasi-temps réel. Les données mises en miroir sont stockées en tant que Delta Parquet dans OneLake. Elles sont donc immédiatement prêtes à être analysées par n’importe quel moteur de Fabric.

La mise en miroir prend en charge des sources telles que Azure SQL Database, Azure Cosmos DB, Azure Database pour PostgreSQL, Azure Databricks (Catalogue Unity), Snowflake, etc. Les modifications apportées à la source sont propagées en continu. Votre copie OneLake reste donc up-to-date sans travaux ETL manuels. Vous pouvez exécuter des rapports analytiques, IA ou Power BI sur de nouvelles données sans interroger directement la source de production.

Pour plus d’informations, consultez Qu’est-ce que la mise en miroir dans Fabric ?

Collaborer dans plusieurs moteurs analytiques

Les moteurs analytiques de Fabric (T-SQL, Apache Spark, Analysis Services, et autres) stockent des données dans OneLake dans le format ouvert Delta Parquet. Cette normalisation vous permet d’utiliser les mêmes données sur plusieurs moteurs. Vous n’avez pas besoin de copier des données simplement pour les utiliser avec un autre moteur ou de vous sentir bloqué par l'utilisation d'un moteur particulier, parce que c'est là que vos données se trouvent.

Par exemple, une équipe d’ingénieurs SQL crée un entrepôt de données transactionnel complet. Ils utilisent le moteur T-SQL pour créer des tables, transformer des données et charger les données dans des tables. Si un scientifique des données souhaite utiliser ces données, il peut attacher un notebook Spark à OneLake et lire ces tables directement. Étant donné que OneLake stocke les tables au format Delta, Spark peut les charger sans aucun connecteur ou exportation de données spécial. Les requêtes SQL et les travaux Spark fonctionnent sur la seule copie des données dans OneLake.

En outre, les utilisateurs professionnels peuvent créer des rapports Power BI sur OneLake à l’aide du mode Direct Lake dans le moteur Analysis Services. Le mode Direct Lake est un mode d’accès aux données qui charge et actualise rapidement de grands volumes de données sans effectuer de copie. Pour plus d’informations, consultez Vue d’ensemble de Direct Lake.

Exemple de diagramme montrant le chargement de données à l’aide de Spark, l’interrogation à l’aide de T-SQL et l’affichage des données dans un rapport Power BI.

Interopérabilité du format de table ouverte

OneLake prend en charge les formats de table Delta Lake et Apache Iceberg par le biais de la virtualisation des métadonnées. Cette fonctionnalité génère automatiquement des métadonnées virtuelles afin que les tables Iceberg puissent être lues comme des tables Delta Lake dans l’ensemble des charges de travail Fabric, et que les tables Delta Lake puissent être lues par des lecteurs Iceberg externes. Vous pouvez écrire des tables Iceberg directement dans OneLake ou créer des raccourcis vers des tables Iceberg stockées en externe, et OneLake les met à la disposition de tous les moteurs Fabric sans conversion manuelle. De même, toute table Delta Lake dans OneLake est accessible par des services compatibles avec Iceberg comme Snowflake.

Pour plus d’informations, consultez Utiliser des tables Iceberg avec OneLake.

Se connecter à OneLake

Vous pouvez accéder aux données OneLake à partir du portail Fabric, des Windows, des outils de Azure existants ou toute application prenant en charge les API ADLS Gen2.

Explorateur de fichiers OneLake pour Windows

Vous pouvez explorer les données OneLake à partir de Windows à l’aide de l’Explorateur de fichiers OneLake pour Windows. Vous pouvez parcourir tous vos espaces de travail et éléments de données, charger, télécharger ou modifier facilement des fichiers comme vous le faites dans Office. L’Explorateur de fichiers OneLake simplifie l’utilisation des lacs de données, de sorte que même les utilisateurs professionnels non techniques peuvent les utiliser.

Pour plus d’informations, consultez Explorateur de fichiers OneLake.

API et SDK ADLS Gen2

OneLake prend en charge les API et les SDK Azure Data Lake Storage (ADLS) Gen2, ce qui vous permet d’utiliser les applications ADLS Gen2 existantes. Chaque espace de travail apparaît sous la forme d’un conteneur et les éléments de données apparaissent sous forme de dossiers au sein de ces conteneurs. Pour plus d’informations, consultez l’accès à OneLake et les API.

Diagramme montrant comment vous pouvez accéder aux données de OneLake avec les API et les SDK.

Étant donné que OneLake est compatible avec les applications ADLS Gen2, vous pouvez vous connecter à OneLake à partir de Azure services. Par exemple:

Protection et surveillance des données

OneLake inclut des fonctionnalités intégrées pour assurer la sécurité de vos données et vous donner une visibilité sur la façon dont elles sont utilisées.

Récupération d’urgence et protection des données

OneLake protège automatiquement vos données avec une redondance intégrée. Dans les régions qui prennent en charge les zones de disponibilité, OneLake utilise le stockage redondant interzone (ZRS) pour répliquer des données sur plusieurs centres de données. Dans d’autres régions, il utilise le stockage localement redondant (LRS). Pour une protection supplémentaire contre les pannes à l’échelle de la région, vous pouvez activer la continuité d’activité et la récupération d’urgence (BCDR) sur une capacité de géorépliquer vos données dans une région Azure jumelée. OneLake prend également en charge la suppression réversible, qui conserve les fichiers supprimés pendant sept jours afin de pouvoir récupérer des suppressions accidentelles.

Pour plus d’informations, consultez La récupération d’urgence et la protection des données pour OneLake.

Diagnostiques

Les diagnostics OneLake fournissent une visibilité sur la façon dont les données sont accessibles et utilisées dans votre environnement de Fabric. Lorsque vous activez les diagnostics au niveau de l’espace de travail, les événements d’accès aux données sont envoyés sous forme de journaux dans un lakehouse. Vous pouvez suivre qui a accédé aux données, quand et comment. Cette journalisation couvre les actions des utilisateurs dans l’interface utilisateur Fabric, l’accès par programmation via les API et les moteurs d’analyse, et l’accès entre espaces de travail via des raccourcis.

Pour plus d'informations, consultez les diagnostics OneLake.