Entender os principais componentes dos Trabalhos do Lakeflow

Concluído

Os Trabalhos do Lakeflow consistem em vários componentes importantes que permitem a orquestração e a execução de tarefas de processamento de dados com eficiência na nuvem. Aqui estão os principais componentes:

  • Trabalhos: os trabalhos são o componente principal em Trabalhos do Lakeflow. Eles permitem que você defina e agende tarefas automatizadas, como executar notebooks, scripts ou JARs (Java Archives) compilados. Os trabalhos podem ser disparados em um agendamento ou executados manualmente e podem ser configurados para lidar com dependências e fluxos de trabalho complexos.

  • Tarefas: os trabalhos do Databricks dão suporte a uma ampla variedade de tipos de tarefas, incluindo notebooks, scripts e pacotes, consultas SQL, pipelines e tarefas de fluxo de controle. Você também pode definir dependências entre tarefas para orquestrar fluxos de trabalho complexos e em múltiplas etapas. As tarefas são organizadas como um Grafo Acíclico Direcionado (DAG), representando visualmente a ordem de execução e relações de dependência.

  • Compute: Azure Databricks oferece três opções de computação para executar tarefas. Computação sem servidor é o padrão para tipos de tarefa compatíveis, Azure Databricks gerencia a infraestrutura automaticamente, portanto, você não precisa definir as configurações do cluster. A computação de trabalhos clássicos fornece controle sobre a configuração de cluster (versão do Spark, tipos de instância, políticas de dimensionamento automático) e é usada quando configurações ou bibliotecas específicas são necessárias. SQL Warehouses executam tarefas de consulta SQL e se conectam a um SQL Warehouse profissional ou sem servidor existente em seu espaço de trabalho.

  • Agendamento e Gatilhos: o agendamento e os gatilhos determinam como e quando os trabalhos são executados. Os trabalhos podem ser disparados manualmente, em uma programação agendada (usando expressões cron) ou em resposta a gatilhos específicos. Isso fornece flexibilidade na forma como os Trabalhos do Lakeflow são orquestrados.

  • Notebooks: os notebooks do Databricks são documentos colaborativos que contêm código executável, visualizações e texto narrativo. Eles são uma unidade comum de execução nos Trabalhos do Lakeflow e podem ser usados para orquestrar transformações de dados complexas, visualizações e modelos de aprendizado de máquina.

  • Bibliotecas: As bibliotecas no Databricks contêm pacotes ou módulos que podem ser usados por notebooks e trabalhos. Os módulos podem incluir pacotes Python, bibliotecas Java/Scala ou pacotes R. As bibliotecas podem ser anexadas a clusters e disponibilizadas para tarefas a serem usadas durante a execução.

  • Monitoramento e registro de atividades: o Azure Databricks fornece ferramentas para monitorar o desempenho de trabalhos e clusters. Logs e métricas são coletados automaticamente, ajudando você a diagnosticar problemas e otimizar o desempenho. A integração com o Azure Monitor permite monitoramento e alertas abrangentes em todo o ecossistema do Azure.

  • Automação: o Databricks oferece a CLI do Databricks, os SDKs do Databricks e a API REST para criar e gerenciar trabalhos programaticamente, permitindo a integração com sistemas externos e ferramentas de automação.

Esses componentes trabalham juntos para fornecer uma estrutura robusta para gerenciar fluxos de trabalho de dados, permitindo processamento e colaboração eficientes em um ambiente de nuvem seguro e escalonável.