O que é OneLake?

O Microsoft OneLake é um data lake unificado para toda a sua organização. Cada tenant Microsoft Fabric inclui automaticamente o OneLake, e é o único local para todos os teus dados de análise. É um repositório central onde pode armazenar, gerir e governar todos os seus dados para análises e cargas de IA em toda a organização.

O OneLake é construído sobre Azure Data Lake Storage e armazena tabelas em formato Delta Parquet ou Iceberg, dois standards abertos que qualquer ferramenta pode ler. Esta abordagem significa que os seus dados não estão presos a formatos proprietários.

O OneLake oferece:

  • Armazenamento unificado de dados para toda a organização com governação e segurança incorporadas
  • Uma cópia de dados para usar com múltiplos motores analíticos sem duplicação
  • Conectividade flexível através do explorador de ficheiros, APIs ADLS Gen2 e integrações de serviços Azure
  • Proteção e monitorização de dados com redundância incorporada, recuperação de desastres e diagnóstico de acesso

Armazenamento unificado de dados

Antes da OneLake, as organizações criavam frequentemente múltiplos lagos para diferentes grupos empresariais, o que levava a custos adicionais para gerir múltiplos recursos. Esta abordagem isolada dificultava a colaboração entre equipas, atrasava os projetos de dados e aumentava o risco de duplicação.

A OneLake resolve estes desafios ao fornecer-lhe um ponto central de acesso aos dados para toda a organização. Cada tenant do Fabric inclui uma única instância do OneLake. Não podes eliminar o OneLake nem criar múltiplos OneLakes, e não há infraestrutura para provisionar ou gerir. Departamentos, equipas e projetos podem armazenar ou ligar-se aos seus dados neste lago unificado e organizá-los usando domínios, subdomínios e espaços de trabalho Fabric – cada um com o seu próprio administrador. Este modelo mantém a propriedade dos dados e permite a governação federada, permitindo que utilizadores autorizados descubram e utilizem dados sem atritos.

Gerido centralmente com propriedade distribuída

Os dados Fabric existem na seguinte hierarquia para organização e governação:

  • Inquilino: As políticas ao nível do inquilino protegem automaticamente quaisquer dados que cheguem ao OneLake para segurança, conformidade e gestão de dados.
  • Espaço de Trabalho: Pode criar qualquer número de espaços de trabalho no seu tenant para organizar os seus dados. Os espaços de trabalho permitem que diferentes partes da organização distribuam políticas de propriedade e acesso. Cada espaço de trabalho faz parte de uma capacidade ligada a uma região específica e faturada separadamente.
  • Itens de dados: Os espaços de trabalho contêm itens de dados como casas de lago, armazéns, casas de eventos e bases de dados KQL. Cada tipo de item é concebido especificamente para cargas de trabalho específicas, como análises baseadas no Spark, consultas T-SQL, streaming em tempo real e muito mais.

Diagrama mostrando a função e estrutura do OneLake.

Para obter mais informações, consulte Workspaces.

Descubra e governe com o catálogo OneLake

O catálogo OneLake é o único local onde profissionais de dados e utilizadores empresariais descobrirem, gerirem e governarem os dados que possuem e podem aceder em toda a OneLake.

Os utilizadores podem filtrar por domínio, espaço de trabalho, tipo de item, endossos e muito mais para localizar exatamente o que necessitam, com cada elemento de dados enriquecido com metadados como descrições, proprietários, esquema, linhagem e métricas de utilização.

Os proprietários de dados podem obter insights e ações recomendadas para melhorar a qualidade e conformidade dos dados, incluindo visibilidade sobre a cobertura de etiquetas de sensibilidade, etiquetagem, endossos e localização dos dados.

Para mais informações, consulte o catálogo OneLake.

Segurança

O modelo de segurança da OneLake permite-lhe partilhar dados de forma abrangente sem expor informações sensíveis. Ao usar os papéis de segurança do OneLake, pode definir permissões granulares sobre os itens de dados, até pastas específicas, tabelas ou até linhas e colunas. Por exemplo, pode partilhar um conjunto de dados de vendas com uma equipa mas restringir o acesso à Cost coluna, ou pode permitir que um parceiro veja apenas as linhas onde Region = "US". A OneLake armazena estes papéis e aplica-os automaticamente em todas as experiências de análise. Assim, se um utilizador tiver acesso apenas a parte de um conjunto de dados, essa regra aplica-se quer faça consultas via SQL, execute um caderno Spark ou visualize um relatório Power BI. A OneLake garante que só veem aquilo que lhes é permitido ver.

Esta abordagem unificada à segurança significa que os utilizadores não têm de manter permissões separadas entre diferentes motores. Isto também significa que os proprietários originais dos dados mantêm sempre o controlo sobre quem pode aceder à fonte de dados, mesmo que os dados sejam passados para uma casa de lago ou espaço de trabalho pertencente a outra pessoa.

Podes aplicar etiquetas de sensibilidade a itens do OneLake tal como farias a um documento, e essas etiquetas impõem encriptação ou restrições de acesso mesmo que os dados sejam exportados para Excel ou outra ferramenta. Da mesma forma, as políticas de prevenção de perda de dados (DLP) podem detetar carregamentos ou downloads de dados sensíveis da OneLake e prevenir ou alertar sobre potenciais fugas de dados.

Para mais informações, consulte Comece a proteger os seus dados no OneLake.

Uma cópia dos dados

Todos os motores de análise Fabric trabalham diretamente com dados no OneLake. Não precisas de copiar dados para os usar com outro motor ou analisar dados de múltiplas fontes.

Atalhos

Um atalho é uma referência a dados armazenados em outros locais de arquivos. Estas localizações de ficheiros podem estar dentro do mesmo espaço de trabalho, num espaço diferente no OneLake, ou externas ao OneLake. Pode usar atalhos para OneLake, Azure Data Lake Storage, Azure Blob storage, fontes compatíveis com Amazon S3 e S3, fontes compatíveis com Iceberg, Microsoft Dataverse, fontes locais e muito mais. Não importa o local, os atalhos fazem com que os arquivos e pastas pareçam armazenados localmente.

Os atalhos permitem à sua organização unificar dados entre clouds e domínios sem os copiar. As equipas podem trabalhar de forma independente em espaços de trabalho separados e usar atalhos para partilhar dados entre si em vez de os duplicar. Por exemplo, uma equipa poderia criar um atalho para um conjunto de dados no espaço de trabalho de outra equipa ou para um bucket externo de S3, e depois combinar esses dados com os seus próprios no OneLake. O atalho aponta para a fonte, por isso, quando os dados de origem são atualizados, essas alterações são imediatamente visíveis através do OneLake. Desta forma, pode criar produtos ou vistas virtuais que reúnem dados de vários grupos empresariais para satisfazer uma necessidade específica, sem mover ou duplicar os dados. Ao usar transformações de atalho, pode até aplicar alterações automáticas aos dados, como converter o formato dos dados ou remover informações pessoais identificáveis (PII).

Diagrama mostrando como os atalhos conectam dados entre espaços de trabalho e itens.

Para obter mais informações sobre como usar atalhos, consulte Atalhos do OneLake.

Mirroring

O espelhamento no Fabric é uma solução de baixo custo e baixa latência que replica continuamente dados de vários sistemas no OneLake. Pode ligar-se de forma segura a uma fonte de dados externa e espelhar (copiar) automaticamente bases de dados ou tabelas selecionadas para o formato aberto do OneLake, mantendo-as sincronizadas quase em tempo real. Os dados espelhados são armazenados como Delta Parquet no OneLake, pelo que ficam imediatamente prontos para análise por qualquer motor do Fabric.

O espelhamento suporta fontes como Base de Dados SQL do Azure, Azure Cosmos DB, Base de Dados do Azure para PostgreSQL, Azure Databricks (Unity Catalog), Snowflake, entre outras. As alterações na origem são propagadas continuamente, pelo que a sua cópia do OneLake se mantém atualizada sem processos manuais de ETL. Pode executar relatórios de análise, IA ou Power BI com dados novos sem consultar diretamente a fonte de produção.

Para mais informações, veja O que é o espelhamento no Fabric?

Colaborar em múltiplos motores analíticos

Todos os motores analíticos do Fabric (T-SQL, Apache Spark, Analysis Services e outros) armazenam dados no OneLake no formato aberto Delta Parquet. Esta padronização permite usar os mesmos dados em vários motores. Não precisas de copiar dados só para os usares com outro motor ou sentires-te preso a usar um determinado motor porque é aí que estão os teus dados.

Por exemplo, uma equipa de engenheiros SQL constrói um data warehouse totalmente transacional. Eles usam o motor T-SQL para criar tabelas, transformar dados e carregar os dados em tabelas. Se um cientista de dados quiser utilizar estes dados, pode anexar um caderno Spark ao OneLake e ler essas tabelas diretamente. Como o OneLake armazena as tabelas em formato Delta, o Spark pode carregá-las sem conectores especiais ou exportações de dados. Tanto as consultas SQL como os trabalhos do Spark operam sobre uma única cópia dos dados no OneLake.

Além disso, os utilizadores empresariais podem construir relatórios Power BI sobre o OneLake utilizando o modo Direct Lake no motor de Serviços de Análise. O modo Direct Lake é um modo de acesso a dados que carrega e atualiza grandes volumes de dados rapidamente sem fazer uma cópia. Para obter mais informações, consulte Visão geral do Direct Lake.

Exemplo de diagrama mostrando o carregamento de dados usando o Spark, consulta usando T-SQL e visualização dos dados num relatório Power BI.

Interoperabilidade em formato de tabela aberta

O OneLake suporta formatos de tabela Delta Lake e Apache Iceberg através da virtualização de metadados. Esta funcionalidade gera automaticamente metadados virtuais para que as tabelas Iceberg possam ser lidas como tabelas Delta Lake em cargas de trabalho Fabric, e tabelas Delta Lake possam ser lidas por leitores Iceberg externos. Pode escrever tabelas Iceberg diretamente para o OneLake ou criar atalhos para tabelas Iceberg armazenadas externamente, e o OneLake disponibiliza-as a todos os motores Fabric sem conversão manual. Do mesmo modo, qualquer tabela Delta Lake no OneLake pode ser acedida por serviços compatíveis com Iceberg, como Snowflake.

Para obter mais informações, consulte Usar tabelas Iceberg com o OneLake.

Conecte-se ao OneLake

Pode aceder aos dados do OneLake a partir do portal Fabric, do Windows, das ferramentas existentes do Azure ou de qualquer aplicação que suporte APIs ADLS Gen2.

Explorador de ficheiros OneLake para Windows

Pode explorar os dados do OneLake a partir do Windows usando o explorador de ficheiros do OneLake para Windows. Pode navegar em todas as suas áreas de trabalho e itens de dados, carregando, transferindo ou modificando ficheiros facilmente, tal como faz no Office. O explorador de ficheiros OneLake simplifica o trabalho com lagos de dados, permitindo que até utilizadores empresariais não técnicos os consigam utilizar.

Para obter mais informações, consulte Explorador de arquivos OneLake.

APIs e SDKs da Geração 2 da ADLS

O OneLake suporta APIs e SDKs Gen2 do Azure Data Lake Storage (ADLS), para que possa usar aplicações ADLS Gen2 existentes. Cada espaço de trabalho aparece como um contentor, e os itens de dados aparecem como pastas dentro desses contentores. Para obter mais informações, consulte Acesso e APIs do OneLake.

Diagrama mostrando como você pode acessar dados do OneLake com APIs e SDKs.

Como o OneLake é compatível com aplicações ADLS Gen2, pode ligar-se ao OneLake a partir dos serviços do Azure. Por exemplo:

Proteção e monitorização de dados

O OneLake inclui capacidades integradas para manter os seus dados seguros e dar-lhe visibilidade sobre como estão a ser utilizados.

Recuperação de desastres e proteção de dados

O OneLake protege automaticamente os seus dados com redundância incorporada. Em regiões que suportam zonas de disponibilidade, o OneLake utiliza armazenamento redundante por zonas (ZRS) para replicar dados em múltiplos centros de dados. Noutras regiões, utiliza armazenamento localmente redundante (LRS). Para proteção adicional contra falhas regionais, pode ativar a continuidade do negócio e a recuperação de desastres (BCDR) numa capacidade de geo-replicar os seus dados para uma região Azure emparelhada. O OneLake também suporta soft delete, que mantém ficheiros apagados durante sete dias para que possas recuperar de eliminações acidentais.

Para mais informações, consulte Recuperação de desastres e proteção de dados para OneLake.

Diagnóstico

O diagnóstico OneLake oferece visibilidade sobre como os dados são acedidos e utilizados em todo o seu ambiente Fabric. Quando ativa o diagnóstico ao nível do espaço de trabalho, os eventos de acesso a dados são enviados sob a forma de registos para um lakehouse. Pode acompanhar quem acedeu a que dados, quando e como. Este registo cobre ações dos utilizadores na interface Fabric, acesso programático via APIs e motores de análise, e acesso entre espaços de trabalho através de atalhos.

Para obter mais informações, consulte Diagnóstico do OneLake.