O que são Trabalhos do Lakeflow?

Concluído

Os Trabalhos do Lakeflow são um conjunto de ferramentas e recursos no ambiente do Azure Databricks projetados para ajudar você a orquestrar, agendar e automatizar tarefas de processamento de dados. Esses fluxos de trabalho permitem que você defina, gerencie e execute pipelines de dados de várias etapas, que podem incluir processos de ingestão, transformação e análise de dados. Fornecem uma maneira eficiente de criar, executar e monitorar trabalhos de fluxo de dados e de dados em lote, dimensionáveis e otimizados para o desempenho.

Os Trabalhos do Lakeflow são profundamente integrados à infraestrutura de nuvem do Azure, aproveitando seus recursos de segurança, escalabilidade e conformidade. Dão suporte às dependências entre tarefas, permitindo um nível sofisticado de agendamento e gerenciamento dos trabalhos. Além disso, o Azure Databricks fornece uma interface amigável para criar, monitorar e gerenciar esses fluxos de trabalho, o que aumenta a produtividade e a colaboração entre as equipes de dados. Essa configuração é ideal para organizações que buscam simplificar suas operações de dados em um ambiente de nuvem consistente e escalonável.

Diagrama mostrando como os principais conceitos do SDP se relacionam entre si em um nível muito alto.

Os gatilhos determinam quando um trabalho é executado. A tabela a seguir mostra os diferentes tipos de gatilho, quando cada um deles é útil e quais restrições devem ser observadas.

Tipo de gatilho Exemplos de caso de uso Benefícios Limitações/itens a serem observados
Agendado (baseado no tempo) ETL noturno, geração de relatório em horários fixos Previsível, fácil de gerenciar, integra-se com a lógica de tempo, bem suportado Pode levar à computação ociosa se não houver novos dados; cronograma rígido; atrasará até a próxima execução se ocorrerem falhas
Atualização da tabela Execute um trabalho downstream quando uma tabela upstream do Catálogo do Unity receber novos dados, com dependências de pipeline orientadas por dados Responde a alterações reais de dados; elimina a sondagem; dá suporte ao monitoramento de várias tabelas com a lógica Any/All Requer tabelas Delta/Iceberg gerenciadas ou externas do Catálogo do Unity; não disponível para tabelas fora do Catálogo do Unity
Chegada do arquivo Processar dados recebidos assim que forem armazenados (por exemplo, logs, uploads) Mais responsivo; computação usada somente quando necessário; reduz o atraso Sobrecarga de listagem de arquivos; latência de detecção; requer locais externos do Catálogo do Unity; limites de gatilhos
Contínuo Trabalhos semelhantes a streaming, pipelines sempre ativos, processamento constante à medida que a execução anterior é concluída Baixa latência; reinicialização automática; ideal para cargas de trabalho de streaming Sem suporte em todos os tipos de computação; opções de dependência/repetição limitadas; é necessário cuidado com o tratamento de sobreposição
Manual/Externo Execuções ad hoc; disparadas pela API ou pelo orquestrador quando o upstream estiver pronto Flexível; bom para testes, preenchimentos retroativos, integração Menos previsível; requer lógica externa; mais potencial para erro humano; monitoramento mais fraco se não gerenciado

Lakeflow Jobs simplificam operações de dados complexas, facilitando para a sua organização a implantação, monitoramento e gerenciamento de aplicativos de Big Data.