Nota
O acesso a esta página requer autorização. Pode tentar iniciar sessão ou alterar os diretórios.
O acesso a esta página requer autorização. Pode tentar alterar os diretórios.
Este artigo descreve o uso do Lakeflow Pipelines Editor para desenvolver e depurar pipelines ETL (extrair, transformar e carregar) em Lakeflow Spark Declarative Pipelines (SDP).
O que é o Lakeflow Pipelines Editor?
O Lakeflow Pipelines Editor é um IDE construído para o desenvolvimento de pipelines. Ele combina todas as tarefas de desenvolvimento de pipeline numa única superfície, suportando fluxos de trabalho em que primeiro vem o código, organização do código baseada em pastas, execução seletiva, pré-visualizações de dados e gráficos de pipeline. Integrado com a plataforma Azure Databricks, também permite o controlo de versão, revisões de código e execuções agendadas.
Visão geral da interface do usuário do Lakeflow Pipelines Editor
A imagem a seguir mostra o Lakeflow Pipelines Editor:
A imagem mostra as seguintes características:
- Explorador de ativos de pipeline: crie, elimine, renomeie e organize ativos de pipeline. Também inclui atalhos para a configuração do pipeline.
- Editor de código de vários arquivos com guias: trabalhe em vários arquivos de código associados a um pipeline.
- Barra de ferramentas específica do pipeline: inclui opções de configuração de pipeline e tem ações de execução no nível do pipeline.
- Gráfico interativo do pipeline: Veja uma visão geral das suas tabelas, abra a barra inferior de pré-visualização de dados e execute outras ações relacionadas com tabelas.
- Perceções de execução ao nível de tabela: obtenha perceções de execução para todas as tabelas ou para uma única tabela num pipeline. As informações referem-se à execução mais recente do pipeline.
- Painel de Problemas: Esta funcionalidade resume erros, avisos e insights em todos os ficheiros do pipeline, e pode navegar até onde o erro ocorreu dentro de um ficheiro específico. Complementa os indicadores de erro codificados.
- Execução seletiva: O editor de código tem funcionalidades para desenvolvimento passo a passo, como a capacidade de atualizar apenas as tabelas do ficheiro atual usando a ação Executar ficheiro , ou de atualizar uma única tabela.
-
Genie Code: Crie, atualize e depure os seus pipelines usando o Genie Code, uma experiência agente que automatiza fluxos de trabalho em várias etapas, desde a descoberta de dados e geração de código até à execução do pipeline e resolução de problemas de qualidade dos dados.
Outras características importantes:
- Pré-visualização de dados: Inspecione os dados das suas tabelas de streaming e vistas materializadas.
- Estrutura de pastas de pipeline padrão: os novos pipelines incluem uma estrutura de pastas predefinida e um código de exemplo que você pode usar como ponto de partida para seu pipeline.
Criar um novo pipeline de ETL
Para criar um novo pipeline ETL usando o Lakeflow Pipelines Editor, siga estas etapas:
Na parte superior da barra lateral, clique no
Novo e, em seguida, selecione
Pipeline ETL.
Um pipeline é criado automaticamente com as seguintes definições predefinidas:
Você pode ajustar essas configurações na barra de ferramentas do pipeline.
No topo, dê um nome exclusivo ao seu pipeline.
Ao lado do nome, aparecem o catálogo e o esquema predefinidos escolhidos para si.
O catálogo padrão e o esquema padrão são onde os conjuntos de dados são lidos ou gravados quando você não qualifica conjuntos de dados com um catálogo ou esquema em seu código. Consulte Objetos de banco de dados no Azure Databricks para obter mais informações.
Clique no catálogo e no esquema para alterar os valores definidos do seu pipeline.
O seu pipeline inclui, por defeito, um ficheiro em branco
my_transformation. Alterne este ficheiro entre Python e SQL escolhendo na lista suspensa da linguagem. Escreva código diretamente neste ficheiro, ou escolha uma das seguintes opções para começar rapidamente:-
Crie com o Genie Code: Descreva o seu pipeline usando linguagem natural e deixe o Genie Code construí-lo por si.
- Utilizar código de exemplo: Crie uma estrutura de pastas predefinida e código de exemplo na linguagem do ficheiro atual.
Para opções mais avançadas, expanda o menu
(à direita do botão
Usar código de exemplo) para:
- Adicione código-fonte existente: Associe o seu pipeline com ficheiros de código já disponíveis no seu espaço de trabalho, incluindo pastas Git.
- Configurar como controlado de versão: Usar um projeto Declarative Automation Bundles para controlo de versões e suporte a CI/CD.
- Utilizar o metastore do Hive: Crie um pipeline com definições herdadas.
-
Como alternativa, você pode criar um pipeline ETL a partir do navegador de espaço de trabalho:
- Clique em Espaço de trabalho no painel do lado esquerdo.
- Selecione qualquer pasta, incluindo pastas Git.
- Clique em Criar no canto superior direito e clique em Pipeline ETL.
Você também pode criar um pipeline de ETL na página de trabalhos e pipelines:
- No espaço de trabalho, clique no
Jobs & Pipelines na barra lateral.
- Em Novo, clique em Pipeline ETL.
Sugestão
CLI Databricks fornece comandos para criar, modificar e gerir os seus pipelines declarativos do Lakeflow Spark a partir de um terminal. Consulte pipelines o grupo de comandos.
Abrir um pipeline ETL existente
Há várias maneiras de abrir um pipeline ETL existente no Lakeflow Pipelines Editor:
Abra qualquer arquivo de origem associado ao pipeline:
- Clique em Espaço de trabalho no painel lateral.
- Navegue até uma pasta com arquivos de código-fonte para seu pipeline.
- Clique no arquivo de código-fonte para abrir o pipeline no editor.
Abra um pipeline de dados editado recentemente:
- No editor, você pode navegar para outros pipelines editados recentemente clicando no nome do pipeline na parte superior do navegador de ativos e escolhendo outro pipeline na lista de recentes exibida.
- De fora do editor, na página Recentes na barra lateral esquerda, abra um pipeline ou um arquivo configurado como o código-fonte de um pipeline.
Ao visualizar um pipeline em todo o produto, você pode optar por editá-lo:
- Na página de monitorização de pipeline, clique no
Editar pipeline.
- Na página Jobs & Pipelines, na barra lateral esquerda, clique no
para editar o pipeline.
- Ao editar um trabalho e adicionar uma tarefa de pipeline, você pode clicar no botão
ao escolher um pipeline em Pipeline.
- Na página de monitorização de pipeline, clique no
Se estiver a navegar Todos os arquivos no navegador de ativos e abrir um arquivo de código-fonte de outro pipeline, um banner é exibido no topo do editor, solicitando que abra o pipeline associado.
Navegador de recursos do pipeline
Quando está a editar um pipeline, a barra lateral esquerda da área de trabalho usa um modo especial chamado navegador de recursos do pipeline. Por predefinição, o navegador de ativos do pipeline centra-se na raiz do pipeline e nas pastas e ficheiros contidos na raiz. Você também pode optar por exibir Todos os arquivos para ver os arquivos fora da raiz do pipeline. As abas abertas no editor de pipeline durante a edição de um pipeline específico são guardadas e, quando se muda para outro pipeline, as abas da última vez que esse pipeline foi editado são restauradas.
Observação
O editor também tem contextos para editar ficheiros SQL (chamado Editor SQL Databricks) e um contexto geral para editar ficheiros de espaço de trabalho que não sejam ficheiros SQL ou ficheiros de pipeline. Cada um desses contextos lembra e restaura as abas que tinhas abertas da última vez que utilizaste esse contexto. Você pode alternar o contexto na parte superior da barra lateral esquerda. Clique no cabeçalho para escolher entre Espaço de trabalho, Editor SQL ou pipelines editados recentemente.
Quando você abre um arquivo na página do navegador Espaço de trabalho, ele é aberto no editor correspondente para esse arquivo. Se o arquivo estiver associado a um pipeline, esse é o Lakeflow Pipelines Editor.
Para abrir um arquivo que não faz parte do pipeline, mas mantém o contexto do pipeline, abra o arquivo na guia Todos os arquivos do navegador de ativos.
O navegador de ativos de pipeline tem duas guias:
- Pipeline: é onde você pode encontrar todos os arquivos associados ao pipeline. Você pode criá-los, excluí-los, renomeá-los e organizá-los em pastas. Esta guia também inclui atalhos para configuração de pipeline e uma exibição gráfica de execuções recentes.
- Todos os arquivos: Todos os outros ativos do espaço de trabalho estão disponíveis aqui. Isto pode ser útil para encontrar ficheiros para adicionar ao pipeline, ou visualizar outros ficheiros relacionados com o pipeline, como um ficheiro YAML que define um Declarative Automation Bundles.
Você pode ter os seguintes tipos de arquivos em seu pipeline:
- Arquivos de código-fonte: esses arquivos fazem parte da definição de código-fonte do pipeline, que pode ser vista em Configurações. O Databricks recomenda sempre armazenar arquivos de código-fonte dentro da pasta raiz do pipeline; caso contrário, eles são mostrados em uma seção de arquivo externo na parte inferior do navegador e têm um conjunto de recursos menos rico.
- Arquivos sem código-fonte: esses arquivos são armazenados dentro da pasta raiz do pipeline, mas não fazem parte da definição do código-fonte do pipeline.
Importante
Deve usar o explorador de ativos da pipeline no separador Pipeline para gerir ficheiros e pastas da sua pipeline. Isso atualiza as configurações do pipeline corretamente. Mover ou renomear arquivos e pastas do navegador do espaço de trabalho ou da guia Todos os arquivos quebra a configuração do pipeline e você deve resolver isso manualmente em Configurações.
Pasta raiz
O navegador de ativos do pipeline está ancorado numa pasta raiz do pipeline. Quando crias um novo pipeline, a pasta raiz do pipeline é criada na pasta principal do utilizador.
Podes mudar a pasta raiz no navegador de ativos do pipeline. Isso é útil se você criou um pipeline em uma pasta e depois deseja mover tudo para uma pasta diferente. Por exemplo, você criou o pipeline em uma pasta normal e deseja mover o código-fonte para uma pasta Git para controle de versão.
- Clique no
para o menu suspenso da pasta raiz.
- Clique em Configurar nova pasta raiz.
- Em Pasta raiz do pipeline , clique em
e escolha outra pasta como a pasta raiz do pipeline. - Clique em Salvar.
No para a pasta raiz, você também pode clicar em Renomear pasta raiz para renomear o nome da pasta. Aqui, você também pode clicar em Mover pasta raiz para mover a pasta raiz, por exemplo, para uma pasta Git.
Você também pode alterar a pasta raiz do pipeline nas configurações:
- Clique em Configurações.
- Em Ativos de código , clique em Configurar caminhos.
- Clique em
para alterar a pasta em Pasta raiz do pipeline. - Clique em Salvar.
Observação
Se alterar a pasta raiz do pipeline, a lista de ficheiros exibida pelo browser de ativos do pipeline é afetada, pois os ficheiros da pasta raiz anterior são mostrados como ficheiros externos.
Pipeline existente sem pasta raiz
Um pipeline existente criado usando a experiência de edição de notebook legado não terá uma pasta raiz configurada. Quando abrir um pipeline que não tem uma pasta raiz configurada, se quiser configurar a pasta raiz para o seu pipeline, siga estes passos:
- No navegador de recursos do pipeline, clique em Configurar.
- Clique em
para selecionar a pasta raiz em Pasta raiz do pipeline. - Clique em Salvar.
Estrutura de pastas padrão
Quando você cria um novo pipeline, uma estrutura de pastas padrão é criada. Essa é a estrutura recomendada para organizar seus arquivos de código-fonte e não código-fonte do pipeline, conforme descrito abaixo.
Um pequeno número de arquivos de código de exemplo são criados nesta estrutura de pastas.
| Nome da pasta | Localização recomendada para estes tipos de ficheiros |
|---|---|
<pipeline_root_folder> |
Pasta raiz que contém todas as pastas e arquivos para seu pipeline. |
transformations |
Arquivos de código-fonte, como arquivos de código Python ou SQL com definições de tabela. |
explorations |
Arquivos que não são de código-fonte, como blocos de anotações, consultas e arquivos de código usados para análise exploratória de dados. |
utilities |
Arquivos sem código-fonte com módulos Python que podem ser importados de outros arquivos de código. Se você escolher SQL como seu idioma para código de exemplo, essa pasta não será criada. |
Você pode renomear os nomes das pastas ou alterar a estrutura para se adequar ao seu fluxo de trabalho. Para adicionar uma nova pasta de código-fonte, siga estes passos:
- Clique em Adicionar no explorador de ativos de pipeline.
- Clique em Criar pasta de código-fonte do pipeline.
- Insira um nome de pasta e clique em Criar.
Arquivos de código-fonte
Os arquivos de código-fonte fazem parte da definição de código-fonte do pipeline. Quando você executa o pipeline, esses arquivos são avaliados. Arquivos e pastas que fazem parte da definição do código-fonte têm um ícone especial com um mini ícone de Pipeline sobreposto.
Para adicionar um novo ficheiro de código-fonte:
-
ao lado da pasta raiz.
- Clique em Transformação.
- Insira um Nome para o arquivo e selecione Python ou SQL como a Linguagem.
- Clique em Criar.
Use as ajudas em linha para começar a escrever código com Genie Code ou para gerar curtos excertos de código para o tipo de conjunto de dados pretendido (por exemplo, vista materializada ou tabela de fluxo contínuo).
Uma transformations pasta para código-fonte é criada por padrão quando você cria um novo pipeline. Esta pasta é o local recomendado para o código-fonte do pipeline, como arquivos de código Python ou SQL com definições de tabela de pipeline.
Arquivos que não são de código-fonte
Os arquivos que não são de código-fonte são armazenados dentro da pasta raiz do pipeline, mas não fazem parte da definição do código-fonte do pipeline. Esses arquivos não são avaliados quando você executa o pipeline. Os ficheiros que não sejam de código-fonte não podem ser ficheiros externos.
Você pode usar isso para arquivos relacionados ao seu trabalho no pipeline que você gostaria de armazenar junto com o código-fonte. Por exemplo:
- Os blocos de anotações que você usa para explorações ad hoc executadas em pipelines declarativos não Lakeflow Spark calculam fora do ciclo de vida de um pipeline.
- Módulos Python que não devem ser avaliados com seu código-fonte, a menos que você importe explicitamente esses módulos dentro de seus arquivos de código-fonte.
Para adicionar um novo ficheiro que não seja código-fonte:
-
ao lado da pasta raiz.
- Clique em Exploração ou Utilitário.
- Insira um Nome para o arquivo.
- Clique em Criar.
Quando você cria um novo pipeline, as seguintes pastas para arquivos que não são de código-fonte são criadas por padrão:
| Nome da pasta | Description |
|---|---|
explorations |
Esta pasta é o local recomendado para blocos de anotações, consultas, painéis e outros arquivos, podendo posteriormente executá-los em ambientes de computação que não utilizam as Pipelines Declarativas de Lakeflow Spark, tal como seria feito habitualmente fora do ciclo de vida de execução de um pipeline. |
utilities |
Esta pasta é o local recomendado para módulos Python que podem ser importados de outros arquivos por meio de importações diretas expressas como from <filename> import, desde que sua pasta pai esteja hierarquicamente sob a pasta raiz. |
Você também pode importar módulos Python localizados fora da pasta raiz, mas nesse caso, você deve acrescentar o caminho da pasta em sys.path seu código Python:
import sys, os
sys.path.append(os.path.abspath('<alternate_path_for_utilities>/utilities'))
from utils import \*
Ficheiros externos
A seção Arquivos externos do navegador de pipeline mostra os arquivos de código-fonte fora da pasta raiz.
Para mover um arquivo externo para a pasta raiz, como a pasta transformations, siga estas etapas:
- Clique no
do ficheiro no gestor de ativos e clique em Mover.
- Escolha a pasta para a qual deseja mover o arquivo e clique em Mover.
Ficheiros associados a vários pipelines
Um selo é mostrado no cabeçalho do arquivo se um arquivo estiver associado a mais de um pipeline. Tem uma contagem de pipelines associados e permite alternar entre os outros pipelines.
Todos os ficheiros da secção
Além da seção Pipeline , há uma seção Todos os arquivos , onde você pode abrir qualquer arquivo em seu espaço de trabalho. Aqui você pode:
- Abra arquivos fora da pasta raiz em uma guia sem sair do Lakeflow Pipelines Editor.
- Navegue até os arquivos de código-fonte de outro pipeline e abra-os. Isso abre o arquivo no editor e apresenta um banner com a opção de alterar o foco do editor para este segundo pipeline.
- Mova os arquivos para a pasta raiz do pipeline.
- Inclua arquivos fora da pasta raiz na definição do código-fonte do pipeline.
Editar ficheiros de origem do pipeline
Quando abres um ficheiro-fonte de pipeline a partir do browser de workspace ou do browser de ativos de pipeline, ele abre num separador de editor no Lakeflow Pipelines Editor. Ao abrir mais ficheiros, são abertos separadores distintos, permitindo a edição de vários ficheiros simultaneamente.
Observação
Abrir um arquivo que não está associado a um pipeline a partir do navegador de espaço de trabalho abrirá o editor em um contexto diferente (o editor de espaço de trabalho geral ou, para arquivos SQL, o Editor SQL).
Quando se abre um arquivo que não seja de pipeline na guia Todos os arquivos do navegador de ativos de pipeline, ele abre-se numa nova guia no contexto do pipeline.
O código-fonte do pipeline inclui vários arquivos. Por defeito, os ficheiros-fonte estão na pasta transformations no navegador de recursos do pipeline. Os ficheiros de código-fonte podem ser ficheiros Python (*.py) ou SQL (*.sql). Sua fonte pode incluir uma mistura de arquivos Python e SQL em um único pipeline, e o código em um arquivo pode fazer referência a uma tabela ou exibição definida em outro arquivo.
Você também pode incluir arquivos de marcação (*.md) em sua pasta tranformações . Os arquivos Markdown podem ser usados para documentação ou anotações, mas são ignorados ao executar uma atualização de pipeline.
Os seguintes recursos são específicos do Lakeflow Pipelines Editor:
Conectar: Conectar-se à computação sem servidor ou clássica para executar o pipeline. Todos os arquivos associados ao pipeline usam a mesma conexão de computação, portanto, depois de se conectar, você não precisa se conectar para outros arquivos no mesmo pipeline. Para obter mais informações sobre opções de computação, consulte Opções de configuração de computação.
Para arquivos que não sejam de pipeline, como um bloco de anotações exploratório, a opção de conexão está disponível, mas se aplica apenas a esse arquivo individual.
Executar ficheiro: Execute o código para atualizar as tabelas definidas neste ficheiro fonte. A próxima seção descreve diferentes maneiras de executar seu código de pipeline.
Editar: Utilize o
Genie Code para editar ou adicionar código no ficheiro.
Solução rápida: Use
Código Genie para corrigir erros ou agir com base nos insights do seu código.
O painel inferior também se ajusta, com base na aba atual. As informações do pipeline no painel inferior estão sempre disponíveis para visualização. pt-PT: Arquivos não associados a pipelines, como arquivos do editor SQL, também mostram a sua saída no painel inferior, numa guia separada. A imagem a seguir mostra um seletor de guias vertical para alternar o painel inferior entre a visualização das informações do pipeline ou do notebook selecionado.
Executar código de pipeline
Você tem quatro opções para executar o código do pipeline:
Execute todos os arquivos de código-fonte no pipeline
Clique em Executar pipeline ou Executar pipeline com atualização completa da tabela para executar todas as definições de tabela em todos os arquivos definidos como código-fonte do pipeline. Para obter detalhes sobre tipos de atualização, consulte Semântica de atualização de pipeline.
Você também pode clicar em Execução seca para validar o pipeline sem atualizar nenhum dado.
Execute o código em um único arquivo
Clique em Executar arquivo ou Executar arquivo com atualização completa da tabela para executar todas as definições de tabela no arquivo atual. Outros ficheiros no fluxo de trabalho não são avaliados.
Essa opção é útil para depuração ao editar e iterar rapidamente um ficheiro. Há efeitos colaterais ao executar apenas o código em um único arquivo.
- Quando outros arquivos não são avaliados, erros nesses arquivos não são encontrados.
- Tabelas materializadas em outros arquivos usam a materialização mais recente da tabela, mesmo que haja dados de origem mais recentes.
- Você pode encontrar erros se uma tabela referenciada ainda não tiver sido materializada.
- O grafo do fluxo de processamento pode estar incorreto ou desconexo no caso de tabelas noutros ficheiros que ainda não foram materializadas. O Azure Databricks faz um esforço melhor para manter o gráfico correto, mas não avalia outros arquivos para fazer isso.
Quando terminares de depurar e editar um ficheiro, a Databricks recomenda executar todos os ficheiros de código fonte no pipeline para verificar se o pipeline funciona do início ao fim antes de o colocar em produção.
Executar o código para uma única tabela
Ao lado da definição de uma tabela no arquivo de código-fonte, clique no ícone de Execução de Tabela
e escolha Atualizar tabela ou Atualização completa da tabela na lista suspensa. A execução do código para uma única tabela tem efeitos colaterais semelhantes aos da execução do código em um único arquivo.
Observação
A execução do código para uma única tabela está disponível para streaming de tabelas e exibições materializadas. Não há suporte para funções de coleta e visualizações.
Executar o código para um conjunto de tabelas
Podes selecionar tabelas do gráfico do pipeline para criar uma lista de tabelas a executar. Passe o rato sobre a tabela no gráfico de pipeline, clique no
e escolha Selecionar tabela para atualizar. Depois de escolheres as tabelas para atualizar, escolhe a opção Executar ou Executar com atualização completa na parte inferior do gráfico do pipeline.
Executar código selecionado
Destaca código SQL e clica em Executar código selecionado para inspecionar rapidamente as saídas sem materializar os dados. As saídas são exibidas no separador Resultados da Consulta , no painel inferior.
Gráfico de pipeline
Depois de ter executado ou validado todos os ficheiros de código-fonte no pipeline, vê-se o grafo do pipeline, também chamado de grafo acíclico dirigido (DAG). O gráfico mostra o gráfico de dependência da tabela. Cada nó possui diferentes estados ao longo do ciclo de vida do processo, tais como validado, em execução ou em erro.
- Gráfico de pipeline: Abra o gráfico clicando no separador Gráfico de pipeline no painel inferior.
- Nós: Apresenta as dependências das tabelas que fazem parte do seu pipeline, bem como quaisquer métricas associadas a essas tabelas. Os nós que fazem parte dos ficheiros atualmente abertos são destacados no grafo do pipeline. Passar o mouse sobre um nó exibe uma barra de ferramentas com opções, incluindo atualizar a consulta. Clicar com o botão direito num nó dá-te as mesmas opções num menu contextual. Clicar num nó mostra a visualização de dados e a definição da tabela. Quando você edita um arquivo, as tabelas definidas nesse arquivo são realçadas no gráfico.
- Abrir no separador: Para maximizar o gráfico, selecione o ícone no canto superior direito do painel inferior para o abrir num separador separado.
- Mais opções: Opções adicionais estão no canto inferior direito, incluindo opções de zoom e Mais opções para mostrar o gráfico em layout vertical ou horizontal.
Pré-visualizações de dados
A seção de visualização de dados mostra dados de exemplo para uma tabela selecionada.
Vês uma pré-visualização dos dados da tabela quando clicas num nó no grafo do pipeline. Para navegar até à pré-visualização de dados de uma tabela diferente diretamente no painel inferior, selecione Voltar ao gráfico ou clique noutro nó se tiver o grafo do pipeline aberto numa aba separada.
Alternativamente, vá à secção Tabelas e clique em Ver Visualização de Dados
. Se tiver escolhido uma tabela, clique em Todas as tabelas para regressar a todas as tabelas.
Ao visualizar os dados da tabela, você pode filtrar ou classificar os dados no local. Se quiser fazer análises mais complexas, você pode usar ou criar um bloco de anotações na pasta Explorações (supondo que você manteve a estrutura de pastas padrão). Por padrão, o código-fonte nesta pasta não é executado durante uma atualização de pipeline, portanto, você pode criar consultas sem afetar a saída do pipeline.
Observações de execução
Pode ver as informações de execução em forma tabular sobre a atualização mais recente do pipeline nos painéis na parte inferior do editor.
| Panel | Description |
|---|---|
| Tables | Lista todas as tabelas com seus status e métricas. Se você selecionar uma tabela, verá as métricas e o desempenho dessa tabela e uma guia para a visualização de dados. |
| Performance | Histórico de consultas e perfis para todos os fluxos de dados neste pipeline. Você pode acessar métricas de execução e planos de consulta detalhados durante e após a execução. Consulte Histórico de consultas do Access para pipelines para obter mais informações. |
| Painel de questões | Clique no painel para ver, de forma simplificada, os erros, avisos e informações da pipeline. Clique numa entrada para ver mais detalhes e depois navegue até ao local no código onde ocorreu o erro. Se o erro estiver em um arquivo diferente do exibido no momento, isso redirecionará você para o arquivo onde o erro está. Clique em Exibir detalhes para ver a entrada de log de eventos correspondente para obter detalhes completos. Clique em Ver registos para ver o registo de eventos completo. Clique em Diagnosticar erro para depurar o problema com Os indicadores de erro afixados por código são mostrados para erros associados a uma parte específica do código. Para obter mais detalhes, clique no ícone de erro ou passe o mouse sobre a linha vermelha. É apresentado um pop-up com mais informações. Em seguida, você pode clicar em Correção rápida para revelar um conjunto de ações para solucionar o erro. |
| Registo de eventos | Todos os eventos acionados durante a última execução do pipeline. Clique em Exibir logs ou qualquer entrada na bandeja de problemas. |
Configuração do pipeline
Você pode configurar seu pipeline a partir do editor de pipeline. Você pode fazer alterações nas configurações, na programação ou nas permissões do pipeline.
Cada um deles pode ser acessado a partir de um botão no cabeçalho do editor, ou a partir de ícones no navegador de ativos (a barra lateral esquerda).
Configurações (ou escolha
no navegador de recursos):
Você pode editar as configurações do pipeline no painel de configurações, incluindo informações gerais, configuração da pasta raiz e do código-fonte, configuração de computação, notificações, configurações avançadas e muito mais.
Agendar (ou escolha
no navegador de ativos):
Na caixa de diálogo de agendamento, você pode criar um ou mais cronogramas para o seu pipeline. Por exemplo, se você quiser executá-lo diariamente, você pode definir isso aqui. Cria uma tarefa para executar o pipeline no horário que escolher. Você pode adicionar uma nova agenda ou remover uma agenda existente da caixa de diálogo de agendamento.
Partilhar (ou, no
no gestor de recursos, escolha
):
Você pode gerenciar permissões no pipeline para usuários e grupos na caixa de diálogo de permissões do pipeline.
Registo de Eventos
Você pode publicar o log de eventos de um pipeline no Unity Catalog. Por padrão, o log de eventos do pipeline é mostrado na interface do usuário e acessível para consulta pelo proprietário.
- Abra Configurações.
- Clique no
seta ao lado de Configurações avançadas.
- Clique em Editar configurações avançadas.
- Em Logs de eventos, clique em Publicar no catálogo.
- Forneça um nome, catálogo e esquema para o log de eventos.
- Clique em Salvar.
Os eventos de pipeline são publicados na tabela que você especificou.
Para saber mais sobre como usar o log de eventos do pipeline, consulte Consultar o log de eventos.
Ambiente de pipeline
Você pode criar um ambiente para seu código-fonte adicionando dependências em Configurações.
- Abra Configurações.
- Em Ambiente do pipeline, clique em Editar ambiente.
- Clica em Adicionar dependência para adicionar uma dependência, como se estivesses a adicionar a um
requirements.txtficheiro. Para obter mais informações sobre dependências, consulte Adicionar dependências ao bloco de anotações.
O Databricks recomenda que você fixe a versão com ==. Consulte Pacote PyPI.
O ambiente se aplica a todos os arquivos de código-fonte em seu pipeline.
Notificações
Você pode adicionar notificações usando as configurações do Pipeline.
- Abra Configurações.
- Na seção Notificações , clique em Adicionar notificação.
- Adicione um ou mais endereços de e-mail e os eventos para os quais pretende que sejam enviados.
- Clique em Adicionar notificação.
Observação
Crie respostas personalizadas para eventos, incluindo notificações ou manipulação personalizada , usando ganchos de eventos do Python.
Monitorização de pipelines
O Azure Databricks também fornece recursos para monitorar pipelines em execução. O editor mostra os resultados e insights de execução sobre a execução mais recente. É otimizado para ajudá-lo a iterar de forma eficiente enquanto desenvolve o seu pipeline interativamente.
A página de monitorização de pipeline permite-lhe visualizar execuções históricas, o que é útil quando um pipeline está a ser executado num cronograma utilizando um Job.
Observação
Há uma experiência de monitorização padrão e uma experiência de monitorização pré-visualizada atualizada. A seção a seguir descreve como ativar ou desativar a experiência de monitorização de pré-visualização. Para obter informações sobre ambas as experiências, consulte Monitorar pipelines na interface do usuário.
A experiência de monitoramento está disponível no botão Jobs & Pipelines no lado esquerdo do seu espaço de trabalho. Também pode saltar diretamente para a página de monitorização a partir do editor clicando nos resultados da execução no navegador de ativos do pipeline.
Para obter mais informações sobre a página de monitoramento, consulte Monitorar pipelines na interface do usuário. A interface do usuário de monitoramento inclui a capacidade de retornar ao Lakeflow Pipelines Editor selecionando Editar pipeline no cabeçalho da interface do usuário.
Agente de Engenharia de Dados
O Editor de Pipelines Lakeflow integra-se ao Genie Code Data Engineering Agent, capaz de gerar, modificar e depurar completamente os Lakeflow Spark Declarative Pipelines diretamente a partir de comandos em linguagem natural. Para mais informações, consulte a seção Usar o Código Genie para o desenvolvimento de pipelines.
Limitações e problemas conhecidos
Consulte as seguintes limitações e problemas conhecidos para o editor de pipeline ETL em Lakeflow Spark Declarative Pipelines:
A barra lateral do navegador de espaço de trabalho não se concentra no pipeline se você começar abrindo um arquivo na
explorationspasta ou em um bloco de anotações, pois esses arquivos ou blocos de anotações não fazem parte da definição do código-fonte do pipeline.Para entrar no modo de foco do pipeline no navegador do espaço de trabalho, abra um arquivo associado ao pipeline.
As pré-visualizações de dados não são suportadas para vistas normais.
Os módulos Python não são encontrados de dentro de um UDF, mesmo que estejam na sua pasta raiz ou no seu
sys.path. Você pode acessar esses módulos anexando o caminho para osys.pathde dentro do UDF, por exemplo:sys.path.append(os.path.abspath(“/Workspace/Users/path/to/modules”))%pip installnão é suportado a partir de ficheiros (o tipo de ativo predefinido com o novo editor). Você pode adicionar dependências nas configurações. Consulte Ambiente de pipeline.Como alternativa, você pode continuar a usar
%pip installa partir de um bloco de anotações associado a um pipeline, em sua definição de código-fonte.
FAQ
Por que usar arquivos e não blocos de anotações para código-fonte?
A execução baseada em células de notebooks não é compatível com pipelines. Os recursos padrão dos cadernos são desativados ou alterados quando se trabalha com pipelines, o que gera confusão para os usuários familiarizados com o comportamento dos cadernos.
No Lakeflow Pipelines Editor, o editor de arquivos é usado como base para um editor de primeira classe para pipelines. Os recursos são direcionados explicitamente para pipelines, como Executar tabela
, em vez de sobrecarregar recursos familiares com comportamento diferente.
Posso continuar a utilizar blocos de notas como código-fonte?
Sim, pode. No entanto, alguns recursos, como Executar tabela,
Executar arquivo, não estão presentes.
Se você tiver um pipeline existente usando blocos de anotações, ele ainda funcionará no novo editor. No entanto, a Databricks recomenda utilizar arquivos para novos pipelines.
Como posso adicionar código existente a um pipeline recém-criado?
Você pode adicionar arquivos de código-fonte existentes a um novo pipeline. Para adicionar uma pasta com ficheiros existentes, siga estes passos:
- Clique em Configurações.
- Em Código-fonte , clique em Configurar caminhos.
- Clique em Adicionar caminho e escolha a pasta para os arquivos existentes.
- Clique em Salvar.
Você também pode adicionar arquivos individuais:
- Clique em Todos os ficheiros no navegador de ativos do pipeline.
- Navegue até o seu ficheiro, clique no
e clique no Incluir no fluxo de trabalho.
Considere mover esses arquivos para a pasta raiz do pipeline. Se deixados fora da pasta raiz do pipeline, eles são mostrados na seção Arquivos externos .
Posso gerenciar o código-fonte do Pipeline no Git?
Você pode gerenciar sua origem de pipeline no Git escolhendo uma pasta Git ao criar inicialmente o pipeline.
Observação
Gerenciar seu código-fonte em uma pasta Git adiciona controle de versão para seu código-fonte. No entanto, para controlar a sua configuração, a Databricks recomenda usar Declarative Automation Bundles para definir a configuração do pipeline em ficheiros de configuração bundle que podem ser armazenados no Git (ou noutro sistema de controlo de versões). Para mais informações, veja O que são os Pacotes de Automação Declarativa?.
Se você não criou o pipeline em uma pasta Git inicialmente, você pode mover seu código-fonte para uma pasta Git. O Databricks recomenda usar a ação do editor para mover toda a pasta raiz para uma pasta Git. Isso atualiza todas as configurações de acordo. Consulte Pasta raiz.
Para mover a pasta raiz para uma pasta Git no explorador de ativos do pipeline:
- Clique no
para a pasta raiz.
- Clique em Mover pasta raiz.
- Escolha um novo local para sua pasta raiz e clique em Mover.
Consulte a seção Pasta raiz para obter mais informações.
Após a mudança, você verá o ícone familiar do Git ao lado do nome da pasta raiz.
Importante
Para mover a pasta raiz do pipeline, utilize o explorador de ativos do pipeline e as etapas acima. Movê-lo de qualquer outra forma quebra as configurações do pipeline e você deve configurar manualmente o caminho correto da pasta em Configurações.
- Clique no
Posso ter vários Pipelines na mesma pasta raiz?
Você pode, mas o Databricks recomenda ter apenas um único Pipeline por pasta raiz.
Quando devo fazer uma corrida seca?
Clique em Execução de teste para verificar o código sem atualizar as tabelas.
Quando devo usar Visualizações temporárias e quando devo usar exibições materializadas no meu código?
Use exibições temporárias quando não quiser materializar os dados. Por exemplo, esta é uma etapa numa sequência de passos para preparar os dados antes que eles estejam prontos para serem materializados usando uma tabela de fluxo contínuo ou vista materializada registada no Catálogo.