Recomendações de rede para a Lakehouse Federation

Este artigo fornece orientação para configurar um caminho de rede viável entre seus clusters do Azure Databricks ou SQL warehouses e o sistema de banco de dados externo ao qual você está se conectando usando a Lakehouse Federation.

Considere o seguinte ao configurar a conectividade de rede para a Lakehouse Federation:

  • Todo o tráfego de rede para consultas federadas é diretamente entre clusters Azure Databricks (ou warehouses SQL) e o sistema de base de dados externo. Nem o Unity Catalog nem o plano de controlo do Azure Databricks estão no caminho de rede.
  • As ligações que usam OAuth têm um requisito adicional. Quando uma ligação autentica com OAuth, a troca de tokens OAuth ocorre a partir do plano de controlo do Azure Databricks, não do plano de computação. O plano de controlo deve conseguir alcançar o ponto final OAuth do sistema externo. Colocar apenas o plano de computação na lista de permissões não é suficiente para estas ligações. Para orientações específicas de conectores, consulte a secção de redes ou limitações da página de ligação relevante, como Executar consultas federadas no Snowflake (OAuth) ou Executar consultas federadas no Microsoft SQL Server. As ligações HTTP são uma exceção; eles encaminham o OAuth através do plano de computação serverless em vez do plano de controlo.
  • A computação do Azure Databricks (ou seja, clusters e armazéns SQL) sempre é implantada na nuvem, mas o sistema de banco de dados externo pode ser local ou hospedado em qualquer provedor de nuvem, desde que haja um caminho de rede viável entre sua computação do Azure Databricks e o banco de dados externo.
  • Se você tiver restrições de rede de entrada ou saída na computação do Azure Databricks ou no sistema de banco de dados externo, consulte as seções a seguir para obter orientações gerais para ajudá-lo a criar um caminho de rede viável.

Para obter mais informações sobre rede em espaços de trabalho do Azure Databricks, consulte Rede.

O sistema de banco de dados e o Azure Databricks computam ambos acessíveis pela Internet

A conexão deve funcionar sem qualquer configuração.

Sistema de banco de dados tem restrições de acesso à rede

Se o sistema de banco de dados externo tiver restrições de acesso à rede de entrada ou saída e o cluster do Azure Databricks ou o SQL warehouse estiver acessível pela Internet, configure uma das seguintes soluções de rede para se conectar a partir de recursos de computação clássicos:

  • IP de saída estável na computação do Azure Databricks.

    No plano de computação clássico, configure um endereço IP estável com um balanceador de carga, gateway NAT, gateway de internet ou equivalente e conecte-o à sub-rede onde a computação do Azure Databricks é implantada. Isso permite que o recurso de computação compartilhe um endereço IP público estável que pode ser autorizado pela base de dados externa.

  • Link privado (somente quando o banco de dados externo está na mesma nuvem que a computação do Azure Databricks)

    No plano de computação clássico, configure uma conexão de Link Privado entre a rede onde o banco de dados é implantado e a rede onde a computação do Azure Databricks é implantada.

No plano de computação sem servidor, há suporte para o Azure Private Link para o conector do SQL Server. Consulte Etapa 3: Criar regras de ponto de extremidade privado.

A computação do Azure Databricks tem restrições de acesso à rede

Se o sistema de banco de dados externo estiver acessível pela Internet e a computação do Azure Databricks tiver restrições de acesso à rede de entrada ou saída (o que só é possível se você estiver em uma rede gerenciada pelo cliente), execute uma das seguintes configurações:

  • Allowlist o nome do host do banco de dados externo nas regras de firewall da sub-rede onde a computação do Azure Databricks é implantada.

    Se você optar por permitir o endereço IP do banco de dados externo em vez do nome do host, verifique se o banco de dados externo tem um endereço IP estável.

  • Link privado (somente quando o banco de dados externo está na mesma nuvem que o Azure Databricks computa)

    Configure uma conexão de Link Privado entre a rede onde o banco de dados é implantado e a rede onde a computação do Azure Databricks é implantada.

A computação do Azure Databricks tem um servidor DNS personalizado

Se o sistema de banco de dados externo estiver acessível pela Internet e a computação do Azure Databricks tiver um servidor DNS personalizado (o que só é possível se você estiver em uma rede gerenciada pelo cliente), adicione o nome de host do sistema de banco de dados ao seu servidor DNS personalizado para que ele possa ser resolvido.

Considerações sobre a rede Snowflake

O Snowflake suporta a saída do Private Link como uma funcionalidade em prévia. O Snowflake não suporta o fornecimento de IPs estáticos, o que impede a prática de definir listas de permissões.