Transformar dados através da execução de um notebook

Usa a atividade do Notebook para executar notebooks que crias no Microsoft Fabric como parte dos teus pipelines do Data Factory. Os blocos de anotações permitem que você execute trabalhos do Apache Spark para trazer, limpar ou transformar seus dados como parte de seus fluxos de trabalho de dados. É fácil adicionar uma atividade de Notebook aos seus pipelines no Fabric, e este guia orienta-o em cada etapa.

Pré-requisitos

Para começar, você deve preencher os seguintes pré-requisitos:

Deve ter acesso a um inquilino Microsoft Fabric com uma capacidade provisionada. Podes experimenta Fabric com um período experimental gratuito.
Um workspace do Fabric atribuído a essa capacidade.

Um bloco de anotações é criado em seu espaço de trabalho. Para criar um novo caderno, consulte Como criar Microsoft Fabric cadernos.

Criar uma atividade do bloco de notas

Crie um novo pipeline em seu espaço de trabalho.
Procure Bloco de Anotações no painel Atividades do pipeline e selecione-o para adicioná-lo à tela do pipeline.
Selecione a nova atividade do Notebook no painel se ainda não estiver selecionada.

Consulte as orientações de configurações gerais para configurar a guia Configurações gerais.

Configurar definições do notebook

Selecione a guia Configurações .

Em Conexão, selecione o método de autenticação para a execução do notebook e forneça as credenciais necessárias.

Selecione um Notebook existente na lista suspensa e, opcionalmente, especifique parâmetros a serem passados para o notebook.

Captura de ecrã a mostrar o separador Definições do Bloco de Notas a realçar o separador, onde escolher um bloco de notas e onde adicionar parâmetros.

Utilização da Identidade do Espaço de Trabalho do Fabric na atividade de Notebook

Criar a Identidade do Espaço de Trabalho

Deve ativar o WI no seu espaço de trabalho (isto pode demorar algum tempo a carregar). Crie uma Identidade de Espaço de Trabalho no seu espaço de trabalho Fabric. Note que o WI deve ser criado no mesmo espaço de trabalho do seu Pipeline.

Consulta a documentação sobre o Workspace Identity.
Ativar definições ao nível do inquilino

Ative a seguinte configuração de inquilino (está desativada por defeito): Os aplicativos principais podem chamar as APIs públicas do Fabric.

Pode ativar esta definição no portal de administração Fabric. Para mais informações sobre esta configuração, consulte o artigo relativo à ativação da autenticação do principal de serviço para APIs de administrador.
Conceder permissões de espaço de trabalho à Identidade do Espaço de Trabalho

Abra o espaço de trabalho, selecione Gerir acesso e atribua permissões à Identidade do Espaço de Trabalho. O acesso dos colaboradores é suficiente para a maioria dos cenários. Se o seu Caderno não estiver no mesmo espaço de trabalho do seu Pipeline, terá de atribuir ao WI que criou no espaço de trabalho do seu Pipeline pelo menos acesso de Contribuidor ao espaço de trabalho do seu Caderno.

Consulta a documentação sobre Dar acesso aos utilizadores aos espaços de trabalho.

Definir tag de sessão

Para minimizar o tempo necessário para executar o trabalho do bloco de anotações, você pode, opcionalmente, definir uma tag de sessão. A configuração da tag session instrui o Spark a reutilizar qualquer sessão existente do Spark, minimizando o tempo de inicialização. Qualquer cadeia de caracteres arbitrária pode ser usada para a tag de sessão. Se nenhuma sessão existir, uma nova será criada usando o valor da tag.

Captura de ecrã a mostrar o separador Configurações do Caderno, realçando o separador onde adicionar a tag de sessão.

Nota

Para poder usar a tag de sessão, a opção modo de alta simultaneidade para o pipeline que executa vários notebooks deve estar ativada. Esta opção pode ser encontrada no modo de simultaneidade alta para as configurações do Spark nas configurações do espaço de trabalho

Guardar e executar ou agendar o pipeline

Altere para o separador Início no topo do editor de pipeline e selecione o botão de guardar para salvar o seu pipeline. Selecione Executar para executar diretamente ou Agendar para agendar corridas em horários ou intervalos específicos. Para obter mais informações sobre execuções de pipeline, consulte: agendar execuções de pipeline.

Captura de tela mostrando a guia Página Inicial no editor de pipeline com os botões Nome da guia, Salvar, Executar e Agendar realçados.

Depois de executar, podes monitorizar a execução do pipeline e ver o histórico de execuções a partir do separador Output abaixo da tela.

Problemas conhecidos

Usar o Service Principal para executar um caderno que contenha código de ligação semântica tem limitações funcionais e suporta apenas um subconjunto de funcionalidades de ligação semântica. Consulte as funções de ligação semântica suportadas para mais detalhes. Para usar outras capacidades, é recomendável autenticar manualmente o link semântico com um principal do serviço.

Como monitorizar execuções de pipeline

Comentários

Esta página foi útil?

Last updated on 2026-04-07