Mapeamento de transformações de fluxo de dados em dataflow gen2 (Pré-visualização)

Importante

As transformações de fluxo de dados de mapeamento no Dataflow Gen2 estão em pré-visualização pública e estão sujeitas a alterações.

As transformações de fluxo de dados de mapeamento (MDF) na geração 2 de fluxo de dados permitem-lhe criar, executar e monitorizar transformações de dados baseadas em Spark diretamente dentro do Data Factory no Microsoft Fabric.

As transformações de MDF trazem para o Microsoft Fabric as capacidades do Azure Data Factory e do Azure Synapse Analytics Mapping Data Flows através de uma experiência familiar de criação visual low-code integrada no Dataflow Gen2.

Com as transformações MDF, pode:

  • Migrar pipelines existentes do Azure Data Factory e do Azure Synapse Analytics Mapping Data Flows para o Fabric.
  • Crie novas transformações baseadas no Spark diretamente no Fabric.
  • Executar transformações MDF com pipelines de dados do Fabric.
  • Monitorize a execução da transformação utilizando experiências integradas de monitorização.
  • Continue a usar os padrões familiares de transformação do Mapping Fluxo de Dados dentro do Fabric.

O que são transformações no fluxo de dados de mapeamento?

As transformações MDF alargam o Dataflow Gen2 com capacidades de transformação baseadas em Spark para cargas de trabalho de preparação e transformação de dados em grande escala.

As transformações MDF proporcionam:

  • Uma experiência de autoria visual de pouco código
  • Execução baseada em Spark
  • Orquestração integrada por meio de pipelines do Fabric
  • Monitorização e informações de execução diretamente no Fabric

Utilize as transformações MDF para:

  • Migrar pipelines existentes do Azure Data Factory ou Azure Synapse Analytics Mapping Data Flows para o Fabric.
  • Construir novos pipelines de transformação baseados no Spark de forma nativa no Fabric.

As transformações MDF integram-se totalmente com dataflow gen2 e proporcionam uma experiência de autoria familiar, semelhante ao Azure Data Factory e ao Azure Synapse Analytics Mapping Data Flows.

Captura de ecrã da experiência de criação da transformação de fluxo de dados de mapeamento incorporada numa tela de desenho do Dataflow Gen2 no Microsoft Fabric.

Cenários suportados

As transformações MDF suportam atualmente os seguintes cenários.

Migrar fluxos de dados de mapeamento existentes

Pode migrar fluxos de dados já existentes do Azure Data Factory e Azure Synapse Analytics Mapping para o Fabric usando a experiência de migração integrada do Azure Data Factory/Synapse Analytics.

Captura de ecrã da experiência de migração do Azure Data Factory para atualizar pipelines de Mapeamento de Fluxos de Dados para Fabric.

Durante a migração:

  1. Os fluxos de dados de mapeamento são convertidos em transformações MDF no dataflow gen2.
  2. Os fluxos de processamento e a lógica de transformação são migrados em conjunto.
  3. O MDF transforma-se abertamente dentro da tela de transformação embutida na geração 2 do fluxo de dados.
  4. A lógica de transformação existente pode continuar a ser criada, validada, executada e monitorizada no Fabric.

Criar novas transformações de fluxo de dados de mapeamento no Fabric

Também pode criar novas transformações MDF diretamente no Dataflow Gen2. Esta experiência permite-lhe:

  • Construa transformações baseadas no Spark usando uma interface visual.
  • Utilize as funcionalidades de transformação do Mapping Fluxo de Dados já conhecidas.
  • Executar transformações usando pipelines de dados Fabric.
  • Monitorize a execução através de experiências integradas de monitorização.

Pré-requisitos

Antes de utilizar transformações MDF no Dataflow Gen2, certifique-se de que os seguintes pré-requisitos estão reunidos:

  • Uma capacidade do Fabric.
  • Permissões de Contribuidor ou superior para o espaço de trabalho do Fabric.
  • Conexões Fabric existentes para fontes de dados suportadas.
  • (Opcional) Um espaço de trabalho já existente no Azure Data Factory ou Azure Synapse Analytics, se estiveres a usar cenários de migração.

Limitações

As seguintes funcionalidades não são atualmente suportadas em pré-visualização pública:

Area Limitação
Flowlets Não suportado.
Biblioteca de Fluxo de Dados Não suportado.
Funções definidas pelo utilizador (UDFs) Não suportado.
Execução de fluxo de dados As transformações MDF só podem ser executadas através da atividade do pipeline Dataflow. A execução direta a partir do dataflow gen2 não é atualmente suportada. Apenas a ação de Guardar está disponível no menu Guardar e executar .
Rede Virtual Gerida O suporte para Managed Rede Virtual (Managed VNet) não está disponível nesta pré-visualização.
Execução em tempo de execução A execução de transformações MDF utiliza atualmente o runtime subjacente do Synapse Spark, semelhante ao Azure Data Factory e ao Azure Synapse Analytics Mapping Data Flows.
Paridade de funcionalidades Nem todas as capacidades do Mapping Fluxo de Dados estão disponíveis nesta pré-visualização.

Conectores suportados

As transformações do MDF suportam a maioria dos conectores de origem e de destino mais frequentemente utilizados disponíveis no Azure Data Factory e no Azure Synapse Analytics Mapping Data Flows.

Os seguintes conectores são atualmente suportados:

Categoria Repositório de dados Transformações MDF no dataflow Gen2 (origem/destino) Tipos de Autenticação Suportados
Azure Armazenamento de Blobs do Azure ✓/✓ Básico, Identidade Gerida / Identidade da Área de Trabalho, Principal de Serviço
Azure Cosmos DB for NoSQL ✓/✓ Básico
Azure Data Explorer ✓/✓ Identidade Gerida / Identidade do Espaço de Trabalho
Azure Data Lake Storage Gen1 ✓/✓ Básico, Identidade Gerida / Identidade de Espaço de Trabalho, Principal de Serviço
Azure Data Lake Storage Gen2 ✓/✓ Básico, Identidade gerida / Identidade do espaço de trabalho, Principal de serviço
Base de Dados do Azure para MySQL ✓/✓ Básico
Base de Dados do Azure para PostgreSQL ✓/✓ Básico
Azure Databricks Delta Lake ✓/✓ Use o formato delta Básico
Base de Dados SQL do Azure ✓/✓ Básico, Identidade gerida / Identidade da área de trabalho, principal de serviço
Azure SQL Managed Instance ✓/✓ Básico, Identidade gerida / Identidade do espaço de trabalho, Service Principal
Azure Synapse Analytics ✓/✓ Básico
Database Snowflake ✓/✓ Básico
Ficheiro Amazon S3 ✓/✓ Básico
SFTP ✓/✓ Básico
REST genérico ✓/✓ Básico, Principal de Serviço

Durante a escrita:

  • As ligações Fabric existentes podem ser reutilizadas.
  • Novas ligações podem ser criadas diretamente no ambiente de criação através da experiência Get Data.
  • A configuração de origem e de dissipação segue padrões familiares do Mapping Fluxo de Dados.

Transformações suportadas

As transformações MDF proporcionam uma experiência conhecida de transformação visual de baixo código para criar pipelines escaláveis de transformação de dados baseados em Spark no Fabric.

As seguintes transformações são atualmente suportadas:

Name Categoria Description
Aggregate Modificador de esquema Defina agregações como SUM, MIN, MAX e COUNT agrupadas por colunas existentes ou calculadas.
Alterar linha Modificador de linha Defina políticas de inserção, exclusão, atualização e atualização em linhas.
Assert Modificador de linha Defina regras de afirmação para linhas no fluxo de dados.
Cast Modificador de esquema Altere os tipos de dados de coluna com a verificação de tipo.
Divisão condicional Várias entradas/saídas Encaminhe as linhas para diferentes fluxos com base nas condições correspondentes.
Coluna derivada Modificador de esquema Gerar novas colunas ou modificar campos existentes usando expressões.
Chamada externa Modificador de esquema Chame endpoints externos em linha para cada linha.
Exists Várias entradas/saídas Verifique se existem dados noutra fonte ou fluxo.
Filter Modificador de linha Filtra as linhas com base nas condições.
Flatten Formatadores Aplanar estruturas hierárquicas, como arrays JSON, em linhas.
Join Várias entradas/saídas Combine dados de duas fontes ou fluxos.
Lookup Várias entradas/saídas Consultar dados de outra fonte ou fluxo.
Nova filial Várias entradas/saídas Aplicar múltiplos caminhos de transformação no mesmo fluxo.
Parse Formatadores Analisar JSON, texto delimitado ou strings formatadas em XML.
Pivot Modificador de esquema Transforme valores de linha distintos em colunas.
Rank Modificador de esquema Gerar classificações ordenadas com base em critérios de ordenação.
Select Modificador de esquema Mudar o nome das colunas, reordená-las ou removê-las.
Sink - Defina o destino para os dados transformados.
Sort Modificador de linha Ordenar as linhas no fluxo de dados atual.
Source - Defina a fonte do fluxo de dados.
Stringify Formatadores Converta tipos complexos em valores de cadeia.
Chave substituta Modificador de esquema Gerar valores de chave substitutos incrementados.
Union Várias entradas/saídas Combine vários fluxos de dados verticalmente.
Unpivot Modificador de esquema Transformar colunas em valores de linha.
Window Modificador de esquema Defina agregações baseadas em janelas sobre fluxos de dados.

Criar uma transformação de fluxo de dados de mapeamento no dataflow gen2

Para criar uma nova transformação de MDF em Fabric:

  1. Abra o espaço de trabalho do Fabric.

  2. Selecione Novo item.

  3. Selecione Dataflow Gen2.

  4. Dê um nome ao item dataflow gen2 e selecione Criar.

  5. No dataflow gen2 canvas, use uma das seguintes opções:

    • Selecionar Executar transformações de fluxo de dados a partir do novo agrupamento de ações na fita inicial do dataflow gen2.
    • Selecione o bloco Executar transformações de fluxo de dados de mapeamento (ADF Mapping Data Flows) na tela.

    Captura de ecrã que mostra a opção para criar uma transformação de fluxo de dados de mapeamento a partir do friso do Dataflow Gen2 no Microsoft Fabric.

    Captura de ecrã que mostra a opção para criar uma transformação de fluxo de dados de mapeamento a partir do bloco de tela dataflow gen2 no Microsoft Fabric.

Uma nova ação de transformação MDF aparece na tela do Dataflow Gen2 e abre a experiência incorporada de criação de transformações MDF.

Tip

A experiência de autoria de transformações MDF utiliza uma interface visual familiar, semelhante ao Azure Data Factory e ao Azure Synapse Analytics Mapping Data Flows.

Transformadas de fluxo de dados de mapeamento do autor

Depois de criar uma transformação MDF, pode começar a criar a lógica de transformação.

Ativar o modo de depuração

Para autoria interativa e pré-visualização de dados:

  1. Ativa a opção de depuração do fluxo de dados na barra de ferramentas flutuante.
  2. Espere que a sessão de depuração se inicialize.
  3. Depois de ativado, pode pré-visualizar os dados de origem e transformação durante a autoria.

Captura de ecrã da tela de transformação de fluxo de dados de mapeamento com modo de depuração de fluxo de dados ativado.

Note

As sessões de depuração podem demorar vários minutos a inicializar, dependendo da disponibilidade do runtime do Spark.

Adicionar uma fonte

Para configurar uma fonte:

  1. Selecionar Adicionar fonte.
  2. Selecione o tipo de ligação.
  3. Selecione uma ligação Fabric existente ou crie novas ligações diretamente através da experiência Get Data, se necessário.
  4. Navegue e selecione o ficheiro de origem, tabela ou conjunto de dados.

Captura de ecrã das definições de configuração da origem na experiência de criação da transformação de fluxo de dados de mapeamento.

Depois de configurar a ligação de origem e o conjunto de dados, use o separador de pré-visualização de dados para validar e pré-visualizar os dados de origem durante a autoria interativa.

Captura de ecrã do separador Pré-visualização de Dados mostrando os dados de origem na experiência de autoria da transformação de fluxo de dados de mapeamento.

Adicionar transformações

Para adicionar transformações:

  1. Selecione o + ícone ao lado de uma fonte ou transformação.
  2. Selecione o tipo de transformação.
  3. Configurar as definições de transformação.

Podes continuar a construir lógica de transformação usando a tela visual de transformação.

Captura de ecrã do gráfico de transformações visuais na experiência de criação de transformações do fluxo de dados de mapeamento.

Configurar um coletor

Após a conclusão da lógica da transformação:

  1. Adicione uma transformação de coletor.
  2. Configure a ligação de destino.
  3. Configurar as definições de escrita.

Captura de ecrã da configuração da transformação de destino na experiência de criação de transformações do fluxo de dados de mapeamento.

Validar e guardar

Antes da execução:

  1. Selecione Validar na barra de ferramentas de transformação MDF.

    Captura de ecrã do botão Validar na barra de ferramentas de transformação do fluxo de dados de mapeamento.

  2. Resolva os problemas de validação, caso sejam reportados.

  3. Selecione Guardar no menu Guardar e executar .

    Captura de ecrã da opção Guardar no menu Guardar e executar para uma transformação do fluxo de dados de mapeamento.

Note

Apenas a ação Guardar é atualmente suportada para dataflow gen2 com transformações MDF em pré-visualização pública.

Executar transformações de fluxo de dados de mapeamento usando pipelines do Fabric

Pode executar transformações do MDF através de pipelines de dados do Fabric com recurso a uma atividade Dataflow.

Para executar uma transformação MDF:

  1. Crie um novo fluxo de trabalho do Fabric.
  2. Adicione uma atividade Dataflow ao pipeline.
  3. Nas Definições da atividade, selecione o elemento dataflow gen2 que contém a transformação MDF.
  4. Selecione a consulta de transformação MDF a executar.
  5. Configura as definições de runtime do Spark conforme necessário.
  6. Validar e publicar o pipeline.
  7. Execute o pipeline manualmente ou configure um agendamento ou acionadores.

Captura de ecrã de um pipeline Fabric com uma atividade Dataflow configurada para mapear a execução da transformação de fluxo de dados.

Configurar as definições de runtime do Spark

As transformações MDF são executadas com recurso ao ambiente de execução Spark gerido integrado no Data Factory no Microsoft Fabric. Pode configurar as definições de runtime do Spark durante a execução do pipeline, incluindo:

  • Dimensionamento de recursos de computação
  • Propriedades do lavatório

Captura de ecrã das definições de configuração do runtime do Spark para uma atividade de fluxo de dados num pipeline do Fabric.

Monitorizar execuções de transformação do fluxo de dados de mapeamento

Pode monitorizar a execução da transformação MDF através de:

  • O painel de saída do pipeline

    Captura de ecrã do painel de saída do pipeline que mostra os resultados da execução da transformação do fluxo de dados de mapeamento.

  • O Centro de Monitorização

    Captura de ecrã do Centro de Monitorização a mostrar execuções de atividades para a execução de uma transformação de fluxo de dados de mapeamento.

Para ver detalhes de monitorização:

  1. Abre os detalhes da execução do pipeline.
  2. Selecione a atividade Dataflow em Atividade Executadas.
  3. Veja o estado da execução e os detalhes do tempo de execução.

Captura de ecrã da página de monitorização da transformação do fluxo de dados do mapeamento mostrando o estado da execução e os detalhes do tempo de execução.