Configurar local de armazenamento de resultados do notebook

Os requisitos de privacidade da sua organização podem exigir que você armazene todos os resultados do bloco de anotações interativo na conta de armazenamento do espaço de trabalho em sua conta na nuvem, em vez do local padrão do plano de controle gerenciado pelo Databricks onde alguns resultados do comando do bloco de anotações são armazenados.

A saída do comando do notebook é armazenada de forma diferente, dependendo de como se executa o notebook.

Por padrão, quando você executa um bloco de anotações interativamente clicando em Executar no bloco de anotações:

  • Se os resultados forem pequenos, eles serão armazenados no plano de controle do Azure Databricks, com os conteúdos dos comandos e metadados do notebook.
  • Resultados maiores são armazenados na conta de armazenamento do espaço de trabalho em sua assinatura do Azure. O Azure Databricks cria automaticamente a conta de armazenamento do espaço de trabalho. O Azure Databricks usa essa área de armazenamento para dados do sistema de espaço de trabalho e a raiz DBFS do seu espaço de trabalho. Os resultados do notebook são armazenados no armazenamento de dados do sistema da área de trabalho, que não é acessível pelos utilizadores. Consulte Armazenamento de espaço de trabalho.

Quando você executa um bloco de anotações como um trabalho, agendando-o ou clicando em Executar agora na página Trabalhos, todos os resultados são armazenados na conta de armazenamento do espaço de trabalho em sua conta.

Você pode configurar seu espaço de trabalho para armazenar todos os resultados interativos do bloco de anotações em sua conta na nuvem, independentemente do tamanho do resultado.

Configurar o local de armazenamento para os resultados dos notebooks interativos

Você pode configurar seu espaço de trabalho para armazenar todos os resultados do bloco de anotações interativo em sua assinatura do Azure, em vez do plano de controle. Você pode habilitar esse recurso usando a página de configurações de administrador ou a API REST. Essa configuração não tem efeito em blocos de anotações executados como trabalhos, cujos resultados já estão armazenados em sua assinatura do Azure por padrão.

Tenha em consideração os seguintes pontos:

  • As alterações a esta configuração são eficazes apenas para novos resultados. Os resultados do bloco de notas existentes não são movidos.
  • Alguns metadados sobre os resultados, como nomes de colunas de gráficos, continuam a ser armazenados no plano de controle.
  • O aumento dos custos de armazenamento pode ser incorrido no seu provedor de nuvem.
  • Pode ocorrer um aumento da latência da rede e da E/S durante a leitura e a escrita dos resultados.

Armazene todos os resultados do bloco de notas na sua conta utilizando a página de definições de administrador

Como administrador de espaço de trabalho:

  1. Vá para a página de configurações.
  2. Clique no separador Segurança.
  3. Clique no botão de alternância Armazenar resultados do bloco de anotações interativo na conta do cliente.

Armazene todos os resultados do bloco de anotações em sua conta usando a API REST

Para configurar o seu espaço de trabalho para armazenar todos os resultados do caderno de notas na sua subscrição do Azure usando a API REST:

  • Você deve ser um administrador de espaço de trabalho.
  • Você precisa de um token de acesso pessoal. As instruções a seguir presumem que tu configuraste um arquivo com o teu token de acesso pessoal .netrc para que possas usar a opção -n nos comandos curl. Consulte o artigo mencionado acima para obter detalhes.

Para obter a configuração atual, chame o ponto de extremidade GET /workspace-conf e defina keys como storeInteractiveNotebookResultsInCustomerAccount:

curl -n --request GET \
  'https://<databricks-instance>/api/2.0/workspace-conf?keys=storeInteractiveNotebookResultsInCustomerAccount'

Para habilitar o seu espaço de trabalho para armazenar resultados de cadernos interativos na sua subscrição do Azure, utilize o ponto de extremidade PATCH /workspace-conf e defina storeInteractiveNotebookResultsInCustomerAccount para true no corpo da solicitação:

curl -n --request PATCH \
 'https://<databricks-instance>/api/2.0/workspace-conf' \
 --header 'Content-Type: text/plain' \
 --data-raw '{
    "storeInteractiveNotebookResultsInCustomerAccount": "true"
}'

Para desativar o recurso, defina o mesmo sinalizador como false:

curl -n --request PATCH \
  'https://<databricks-instance>/api/2.0/workspace-conf' \
 --header 'Content-Type: text/plain' \
 --data-raw '{
    "storeInteractiveNotebookResultsInCustomerAccount": "false"
}'