Nota
O acesso a esta página requer autorização. Pode tentar iniciar sessão ou alterar os diretórios.
O acesso a esta página requer autorização. Pode tentar alterar os diretórios.
Os dados são processados em cadeias de processamento por meio de fluxos. Cada fluxo consiste em uma consulta e, normalmente, um destino. O fluxo processa a consulta, seja como um lote ou incrementalmente como um fluxo de dados para o destino. Um fluxo vive dentro de um gasoduto em Lakeflow Spark Declarative Pipelines.
Normalmente, os fluxos são definidos automaticamente quando você cria uma consulta em um pipeline que atualiza um destino, mas também é possível definir explicitamente fluxos adicionais para processamento mais complexo, como anexar a um único destino a partir de várias fontes.
Atualizações
Um fluxo é executado cada vez que o pipeline que o define é atualizado. O fluxo criará ou atualizará tabelas com os dados mais recentes disponíveis. Dependendo do tipo de fluxo e do estado das alterações nos dados, a atualização pode executar uma atualização incremental, que processa apenas novos registros, ou executar uma atualização completa, que reprocessa todos os registros da fonte de dados.
- Para obter mais informações sobre atualizações de pipeline, consulte Executar uma atualização de pipeline.
- Para obter mais informações sobre como agendar e acionar atualizações, consulte Modo de pipeline acionado versus contínuo.
Fluxos padrão e fluxos adicionais
Quando cria uma consulta num pipeline que atualiza um alvo, um fluxo padrão é definido automaticamente. Para uma tabela de streaming, o fluxo por defeito é um fluxo de anexação que adiciona novas linhas a cada atualização, e tem o mesmo nome do destino. Criar um fluxo e o seu destino numa única etapa é a forma mais comum de usar pipelines, e pode usá-lo para ingerir ou transformar dados.
Também pode definir fluxos separadamente de um alvo, o que permite que múltiplos fluxos adicionem dados a um único alvo. Isto é útil quando precisa:
- Adicione fontes de streaming que sejam adicionadas a uma tabela de streaming existente sem exigir uma atualização completa.
- Preenche uma tabela de streaming com dados históricos em falta.
- Combine dados de várias fontes sem usar uma
UNIONcláusula.
Para exemplos de criação de fluxos padrão e explícitos, veja Utilizar fluxos em Pipelines Declarativos Lakeflow Spark.
Tipos de escoamentos
Os fluxos padrão para tabelas de streaming e visões materializadas são fluxos de acréscimo. Você também pode criar fluxos para ler a partir de fontes de dados de captura de dados de mudança. A tabela a seguir descreve os diferentes tipos de fluxos.
| Tipo de fluxo | Description |
|---|---|
| Anexar |
Os fluxos de acréscimo são o tipo mais comum de fluxo, onde novos registros na origem são gravados no destino a cada atualização. Eles correspondem ao modo de adição em streaming estruturado. Você pode adicionar o ONCE flag, indicando uma consulta por lote cujos dados devem ser inseridos no destino apenas uma vez, a menos que o destino seja totalmente atualizado. Qualquer número de fluxos de anexação pode gravar num destino específico.Os fluxos padrão (criados com a tabela de streaming de destino ou a exibição materializada) terão o mesmo nome que o destino. Outros alvos não têm fluxos padrão. |
| Auto CDC (anteriormente aplicar alterações) | Um fluxo CDC automático ingere uma consulta que contém dados de captura de dados de alteração (CDC). Os fluxos CDC automáticos só podem destinar-se a tabelas de streaming, e a origem deve ser streaming (mesmo no caso de fluxos ONCE). Vários fluxos CDC automáticos podem ter como alvo uma única tabela de streaming. Uma tabela de streaming que serve como destino para um fluxo CDC automático só pode ser direcionada por outros fluxos CDC automáticos.Para obter mais informações sobre dados CDC, consulte The AUTO CDC APIs: Simplify change data capture with pipelines. |
| Atualização (Pré-visualização Pública) |
Os fluxos de atualização produzem agregados globais de streaming, sem marca de água, para um sumidouro, emitindo apenas os registos que mudaram em cada lote. Os fluxos de atualização estão disponíveis apenas em Python. Veja update_flow. |
Recursos adicionais
Para obter mais informações sobre fluxos e seu uso, consulte os seguintes tópicos:
- Utilização de escoamentos em oleodutos declarativos Lakeflow Spark
- AUTO CDC APIs: Simplifique a captura de dados de mudanças através de pipelines
- Preenchimento de dados históricos com pipelines
- Escrevendo pipelines em Python ou SQL
- Tabelas de streaming
- Visões materializadas
- Sumidouros em Oleodutos Declarativos Lakeflow Spark