Compreender os principais componentes do Lakeflow Jobs

Concluído

Os Lakeflow Jobs consistem em vários componentes-chave que permitem a orquestração e execução de tarefas de processamento de dados de forma eficiente na nuvem. Aqui estão os principais componentes:

  • Empregos: Os empregos são o principal componente do Lakeflow Jobs. Eles permitem que você defina e agende tarefas automatizadas, como executar notebooks, scripts ou compilados Java Archives (JARs). Os trabalhos podem ser acionados em uma agenda ou executados manualmente, e podem ser configurados para lidar com dependências e fluxos de trabalho complexos.

  • Tarefas: Os trabalhos do Databricks oferecem suporte a uma ampla variedade de tipos de tarefas, incluindo blocos de anotações, scripts e pacotes, consultas SQL, pipelines e tarefas de fluxo de controle. Você também pode definir dependências entre tarefas para orquestrar fluxos de trabalho complexos e de várias etapas. As tarefas estão organizadas como um Grafo Acíclico Direcionado (DAG), representando visualmente as relações de ordem de execução e dependência.

  • Compute: Azure Databricks oferece três opções de computação para tarefas em execução. Serverless compute é o padrão para tipos de tarefas suportadas — Azure Databricks gere a infraestrutura automaticamente, por isso não precisa de configurar as definições do cluster. O Classic Jobs Compute dá-te controlo sobre a configuração do cluster (versão do Spark, tipos de instância, políticas de autoscaling) e é usado quando são necessárias configurações ou bibliotecas específicas. Os armazéns SQL executam tarefas de consulta SQL e ligam-se a um armazém SQL sem servidor ou a um armazém SQL profissional existente no seu espaço de trabalho.

  • Schedule & Triggers: Schedule & Triggers determinam como e quando os trabalhos são executados. Os trabalhos podem ser acionados manualmente, de forma programada (usando expressões cron), ou em resposta a gatilhos específicos. Isso proporciona flexibilidade na forma como os Lakeflow Jobs são orquestrados.

  • Blocos de anotações: Os blocos de anotações Databricks são documentos colaborativos que contêm código executável, visualizações e texto narrativo. Eles são uma unidade comum de execução no Lakeflow Jobs e podem ser usados para orquestrar transformações de dados complexas, visualizações e modelos de aprendizado de máquina.

  • Bibliotecas: As bibliotecas no Databricks contêm pacotes ou módulos que podem ser usados por blocos de anotações e trabalhos. Os módulos podem incluir pacotes Python, bibliotecas Java/Scala ou pacotes R. As bibliotecas podem ser anexadas a clusters e disponibilizadas para tarefas a serem usadas durante a execução.

  • Monitorização e Registo: o Azure Databricks fornece ferramentas para monitorizar o desempenho de tarefas e clusters. Logs e métricas são coletados automaticamente, ajudando a diagnosticar problemas e otimizar o desempenho. A integração com o Azure Monitor permite monitoramento e alertas abrangentes em todo o ecossistema do Azure.

  • Automação: A Databricks oferece a CLI do Databricks, os SDKs do Databricks e a API REST para criar e gerenciar trabalhos de forma programática, permitindo a integração com sistemas externos e ferramentas de automação.

Esses componentes trabalham juntos para fornecer uma estrutura robusta para gerenciar fluxos de trabalho de dados, permitindo processamento e colaboração eficientes em um ambiente de nuvem seguro e escalável.