O que é o protocolo OpenSharing Databricks-to-Databricks?

Esta página apresenta uma visão geral de como usar o OpenSharing Databricks-to-Databricks para partilhar dados de forma segura com qualquer utilizador Databricks, independentemente da conta ou da cloud host, desde que esse utilizador tenha acesso a um espaço de trabalho ativado para o Unity Catalog.

Quem deve usar Databricks-para-Databricks OpenSharing?

Existem três formas de partilhar dados usando o OpenSharing.

  1. O protocolo de compartilhamento Databricks-to-Databricks, abordado neste artigo, permite que você compartilhe dados de seu espaço de trabalho habilitado para Catálogo Unity com usuários que também têm acesso a um espaço de trabalho Databricks habilitado para Catálogo Unity.

    Esta abordagem utiliza o servidor OpenSharing, que está integrado no Azure Databricks e oferece suporte para partilha de notebooks, governação de dados do Unity Catalog, auditoria e acompanhamento de utilização tanto para fornecedores como para destinatários. A integração com o Unity Catalog simplifica a configuração e a governança para provedores e destinatários e melhora o desempenho.

  2. O protocolo de partilha Databricks-to-Open permite-lhe partilhar dados que gere num espaço de trabalho Databricks compatível com o Unity Catalog com utilizadores em qualquer plataforma informática.

    Veja O que é o protocolo de partilha OpenSharing Databricks-to-Open?.

  3. Uma implementação gerida pelo cliente do servidor OpenSharing de código aberto permite-lhe partilhar a partir de qualquer plataforma para qualquer outra, quer seja Databricks ou não.

    Veja o projeto open source.

Para uma introdução ao OpenSharing e mais informações sobre estas três abordagens, consulte O que é o OpenSharing?.

Fluxo de trabalho OpenSharing Databricks-to-Databricks

Esta seção fornece uma visão geral de alto nível do fluxo de trabalho de compartilhamento de Databricks para Databricks, com links para documentação detalhada para cada etapa.

No modelo OpenSharing de Databricks para Databricks:

  1. Um destinatário de dados fornece a um provedor de dados o identificador exclusivo de compartilhamento para o metastore do Databricks Unity Catalog que está anexado ao espaço de trabalho Databricks que o destinatário (que representa um utilizador ou grupo de utilizadores) irá usar para aceder aos dados que o provedor de dados está a compartilhar.

    Para obter detalhes, consulte Etapa 1: solicitar o identificador de compartilhamento do destinatário.

  2. O fornecedor de dados cria uma partilha no metastore do Unity Catalog do fornecedor. Esse objeto nomeado contém uma coleção de tabelas, exibições, volumes e blocos de anotações registrados no metastore.

    Para mais detalhes, consulte Criar partilhas para o OpenSharing.

  3. O provedor de dados cria um objeto de destinatário no metastore Unity Catalog do provedor. Esse objeto nomeado representa o usuário ou grupo de usuários que acessará os dados incluídos no compartilhamento, juntamente com o identificador de compartilhamento do metastore do Unity Catalog anexado ao espaço de trabalho que o usuário ou grupo de usuários usará para acessar o compartilhamento. O identificador de compartilhamento é o identificador de chave que permite a conexão segura.

    Para obter detalhes, consulte Etapa 2: criar o destinatário.

  4. O provedor de dados concede ao destinatário acesso ao compartilhamento.

    Para mais detalhes, consulte Gerir o acesso a partilhas de dados OpenSharing (para fornecedores).

  5. A partilha fica disponível no espaço de trabalho Databricks do destinatário, e os destinatários podem aceder a ela usando o Explorador de Catálogos, a CLI Databricks ou comandos SQL num caderno Azure Databricks ou no editor de consultas SQL do Databricks.

    Para acessar as tabelas, exibições, volumes e blocos de anotações em um compartilhamento, um administrador de metastore ou usuário privilegiado deve criar um catálogo a partir do compartilhamento. Em seguida, esse usuário ou outro usuário ao qual é concedido o privilégio apropriado pode conceder a outros usuários acesso ao catálogo e aos objetos no catálogo. Conceder permissões sobre catálogos partilhados e ativos de dados funciona tal como acontece com quaisquer outros ativos registados no Unity Catalog, com a distinção importante de que os utilizadores só podem ter acesso à leitura em objetos em catálogos criados a partir de partilhas OpenSharing.

    Os blocos de anotações compartilhados estão localizados no nível do catálogo, e qualquer usuário com o privilégio de USE CATALOG no catálogo pode acessá-los.

    Para mais detalhes, veja Ler dados partilhados usando Databricks-to-Databricks OpenSharing (para destinatários).

Melhore o desempenho de leitura de tabelas com o compartilhamento de histórico

Os compartilhamentos de tabela Databricks-to-Databricks podem melhorar o desempenho permitindo o compartilhamento de histórico. O histórico de compartilhamento melhora o desempenho aproveitando as credenciais de segurança temporárias do seu armazenamento em nuvem, com escopo até o diretório raiz da tabela Delta compartilhada do provedor, resultando em um desempenho comparável ao acesso direto às tabelas de origem.

  • Para novos compartilhamentos de tabela, especifique WITH HISTORY ao criar o compartilhamento de tabela. Consulte Adicionar tabelas a uma partilha. Quando você compartilha uma tabela usando computação no Databricks Runtime 16.2 e superior, WITH HISTORY é o padrão.
  • Para compartilhamentos de tabela existentes, você deve alterar o compartilhamento para compartilhar o histórico da tabela. Consulte Atualizar compartilhamentos. Quando você compartilha uma tabela usando computação no Databricks Runtime 16.2 e superior, WITH HISTORY é o padrão.

Quando você compartilha um esquema inteiro, todas as tabelas no esquema são compartilhadas com o histórico por padrão.

Note

As tabelas com particionamento ativado não recebem os benefícios de desempenho do compartilhamento de histórico. Consulte Definir partições de tabela para partilhar

Para requisitos de elegibilidade para tokens cloud e considerações de privacidade de dados, consulte elegibilidade para tokens cloud.

Matriz de suporte Databricks-para-Databricks OpenSharing para ambientes cloud

Databricks-para-Databricks O OpenSharing suporta partilha dentro do mesmo tipo de ambiente. As nuvens comerciais incluem espaços de trabalho com controles de conformidade habilitados, como o FedRAMP Moderate. A partilha com ambientes Azure Government não é suportada.

Important

A partilha entre domínios regulatórios é feita em Pré-visualização Pública bloqueada. Contacte a sua equipa de contas Databricks para começar.

Nessa matriz, cada linha representa o ambiente do provedor (os dados de compartilhamento do metastore) e cada coluna representa o ambiente do destinatário (o metastore que recebe dados compartilhados).

Fornecedor Destinatário: Serviços de nuvem comerciais Destinatário: AWS GovCloud Destinatário: AWS GovCloud DoD Destinatário: Azure China
Nuvens comerciais
AWS GovCloud
AWS GovCloud DoD
Azure China

Limitations

Aplicam-se as seguintes limitações à partilha de domínios entre domínios regulamentares:

  • Os tokens cloud são usados a menos que uma partilha entre ou saia do AWS GovCloud ou do AWS GovCloud DoD. Nestes casos seguintes, as tabelas são partilhadas usando URLs pré-assinadas:
    • Uma nuvem comercial partilha com a AWS GovCloud ou recebe partilhas da AWS GovCloud DoD.
    • O AWS GovCloud e o AWS GovCloud DoD partilham entre si.