Partilhar via


Transformar dados através da execução de um notebook

Usa a atividade do Notebook para executar notebooks que crias no Microsoft Fabric como parte dos teus pipelines do Data Factory. Os blocos de anotações permitem que você execute trabalhos do Apache Spark para trazer, limpar ou transformar seus dados como parte de seus fluxos de trabalho de dados. É fácil adicionar uma atividade de Notebook aos seus pipelines no Fabric, e este guia orienta-o em cada etapa.

Pré-requisitos

Para começar, você deve preencher os seguintes pré-requisitos:

Criar uma atividade do bloco de notas

  1. Crie um novo pipeline em seu espaço de trabalho.

  2. Procure Bloco de Anotações no painel Atividades do pipeline e selecione-o para adicioná-lo à tela do pipeline.

    Captura de ecrã da interface Fabric com o painel de Atividades e a atividade do Caderno destacados.

  3. Selecione a nova atividade do Notebook no painel se ainda não estiver selecionada.

    Captura de ecrã a mostrar o separador Definições gerais da atividade Bloco de Notas.

    Consulte as orientações de configurações gerais para configurar a guia Configurações gerais.

Configurar definições do notebook

Selecione a guia Configurações .

Em Conexão, selecione o método de autenticação para a execução do notebook e forneça as credenciais necessárias.

Selecione um Notebook existente na lista suspensa e, opcionalmente, especifique parâmetros a serem passados para o notebook.

Captura de ecrã a mostrar o separador Definições do Bloco de Notas a realçar o separador, onde escolher um bloco de notas e onde adicionar parâmetros.

Utilização da Identidade do Espaço de Trabalho do Fabric na atividade de Notebook

  1. Criar a Identidade do Espaço de Trabalho

    Deve ativar o WI no seu espaço de trabalho (isto pode demorar algum tempo a carregar). Crie uma Identidade de Espaço de Trabalho no seu espaço de trabalho Fabric. Note que o WI deve ser criado no mesmo espaço de trabalho do seu Pipeline.

    Consulta a documentação sobre o Workspace Identity.

  2. Ativar definições ao nível do inquilino

    Ative a seguinte configuração de inquilino (está desativada por defeito): Os aplicativos principais podem chamar as APIs públicas do Fabric.

    Pode ativar esta definição no portal de administração Fabric. Para mais informações sobre esta configuração, consulte o artigo relativo à ativação da autenticação do principal de serviço para APIs de administrador.

  3. Conceder permissões de espaço de trabalho à Identidade do Espaço de Trabalho

    Abra o espaço de trabalho, selecione Gerir acesso e atribua permissões à Identidade do Espaço de Trabalho. O acesso dos colaboradores é suficiente para a maioria dos cenários. Se o seu Caderno não estiver no mesmo espaço de trabalho do seu Pipeline, terá de atribuir ao WI que criou no espaço de trabalho do seu Pipeline pelo menos acesso de Contribuidor ao espaço de trabalho do seu Caderno.

    Consulta a documentação sobre Dar acesso aos utilizadores aos espaços de trabalho.

Definir tag de sessão

Para minimizar o tempo necessário para executar o trabalho do bloco de anotações, você pode, opcionalmente, definir uma tag de sessão. A configuração da tag session instrui o Spark a reutilizar qualquer sessão existente do Spark, minimizando o tempo de inicialização. Qualquer cadeia de caracteres arbitrária pode ser usada para a tag de sessão. Se nenhuma sessão existir, uma nova será criada usando o valor da tag.

Captura de ecrã a mostrar o separador Configurações do Caderno, realçando o separador onde adicionar a tag de sessão.

Nota

Para poder usar a tag de sessão, a opção modo de alta simultaneidade para o pipeline que executa vários notebooks deve estar ativada. Esta opção pode ser encontrada no modo de simultaneidade alta para as configurações do Spark nas configurações do espaço de trabalho

Captura de tela mostrando a guia Configurações do espaço de trabalho, destacando onde habilitar o modo de alta simultaneidade para pipelines que executam vários notebooks.

Guardar e executar ou agendar o pipeline

Altere para o separador Início no topo do editor de pipeline e selecione o botão de guardar para salvar o seu pipeline. Selecione Executar para executar diretamente ou Agendar para agendar corridas em horários ou intervalos específicos. Para obter mais informações sobre execuções de pipeline, consulte: agendar execuções de pipeline.

Captura de tela mostrando a guia Página Inicial no editor de pipeline com os botões Nome da guia, Salvar, Executar e Agendar realçados.

Depois de executar, podes monitorizar a execução do pipeline e ver o histórico de execuções a partir do separador Output abaixo da tela.

Problemas conhecidos