Configurar perfis de recursos no Microsoft Fabric

Aplica-se a:✅ Engenharia de dados e ciência de dados do Fabric

Perfis de recursos na Engenharia de Dados do Fabric ajudam você a obter configurações de computação do Spark otimizadas sem ajuste manual. Você descreve sua carga de trabalho selecionando um caso de uso primário, volume de dados e algumas outras entradas de alto nível. Em seguida, o Fabric gera uma configuração recomendada, incluindo tamanhos de nó, configurações de dimensionamento automático e versão de tempo de execução, com base em práticas recomendadas comprovadas e dados de desempenho interno.

Por que usar perfis de recurso

Os perfis de recurso fornecem:

  • Otimizado desde o início: sua primeira sessão do Spark é executada na computação ajustada para sua carga de trabalho , sem necessidade de benchmarking iterativo.
  • Consistência: todos os trabalhos do Spark no workspace compartilham a mesma configuração ajustada pelo desempenho.
  • Melhor preço-desempenho: recursos de dimensionamento adequado reduzem o desperdício e melhoram a eficiência.
  • Menor sobrecarga operacional: menos ciclos de ajuste e menos escalonamentos de suporte.

Pré-requisitos

Para configurar perfis de recurso, você deve ter a função de Administrador para o workspace.

Configurar um perfil de recurso

Para configurar um perfil de recurso para seu workspace:

  1. Vá para o workspace e selecione as configurações do Workspace.

  2. Expanda Engenharia de Dados/Ciência no painel esquerdo e selecione as configurações do Spark.

  3. Para obter uma configuração de computação recomendada para otimizar o uso de recursos, em Otimizar para seu caso de uso, selecioneIntrodução.

    Captura de tela mostrando o botão Introdução em Otimizar para seu caso de uso nas configurações do Spark.

  4. Na página Otimizar para seu caso de uso , forneça as seguintes entradas:

    • Caso de uso primário: Selecione a camada medalhão ou a base de tarefas, e então escolha uma opção específica na lista suspensa. As opções de camada de medalhão são Bronze, Prata ou Ouro. As opções baseadas em tarefas são otimizadas para leitura ou otimizadas para gravação. Para obter diretrizes sobre como escolher um caso de uso, consulte Referência de caso de uso primário.
    • Volume de dados típico: selecione um volume na lista suspensa: até 1 GB, 10 GB, 100 GB, 1 TB ou mais de 1 TB.
    • Unidades de capacidade máxima (CU): Use o slider para definir o limite máximo para o pool do Spark.
  5. Selecione Obter recomendação.

    Captura de tela mostrando o botão para obter recomendações.

    O Fabric gera uma configuração otimizada com base em suas entradas.

  6. Examine a recomendação. A recomendação inclui valores para duas categorias:

    • Pool do Spark: tipo de pool, família de nós, tamanho do nó, dimensionamento automático e alocação de executor dinâmico.
    • Ambiente: versão de runtime, núcleos e memória do driver Spark, núcleos, memória e instâncias do executor Spark.

    Captura de tela mostrando a configuração recomendada para o caso de uso selecionado, incluindo perfil de recurso, configurações de nó e versão de runtime.

    Se você quiser ajustar suas entradas, selecione a seta para trás para retornar à página anterior, atualize suas seleções e selecione Obter recomendação novamente.

  7. Insira um nome de pool do Spark e o Ambiente para a configuração e, em seguida, selecione Aplicar para salvá-lo no workspace.

    Captura de tela mostrando o botão para aplicar recomendações.

Depois de aplicar um perfil de recurso, o Fabric criará um pool personalizado do Spark com as configurações recomendadas.

Observação

Se o workspace ainda não tiver um pool personalizado, o novo pool será automaticamente definido como o pool padrão para o workspace. Se o workspace já tiver um pool padrão, você precisará alternar manualmente para o novo pool nas configurações do workspace do Spark. As sessões ativas não são afetadas até serem reiniciadas.

Referência de caso de uso primário

Use as diretrizes a seguir para selecionar a entrada de caso de uso primário correta ao configurar um perfil de recurso:

Camada de medalhão

Escolha Medallion layer se o pipeline de dados seguir o padrão de arquitetura Medallion, no qual os dados passam pelos estágios Bronze (bruto), Prata (limpo) e Ouro (curado). Cada opção ajusta a computação para as características de leitura/gravação típicas desse estágio.

Caso de uso Quando usar
Bronze Ingestão de dados brutos, alta taxa de transferência de escrita, formatos diversos
Prata Limpeza e enriquecimento, leitura/gravação balanceada com junções moderadas
Ouro Agregação e relatórios, otimizado para leitura para análise e Power BI

Baseado em tarefas

Escolha Baseado em tarefas se sua carga de trabalho não seguir o padrão de medalhão ou se for dominada por um único padrão de acesso. Por exemplo, use essa opção para trabalhos ETL autônomos, notebooks interativos de análise ou pipelines de streaming.

Caso de uso Quando usar
Leitura otimizada Leituras e consultas frequentes, notebooks interativos
Gravação otimizada Ingestão de grande volume, canais de ETL, transmissão contínua

Atualizar perfis de recursos automaticamente

Os perfis de recursos dão suporte a uma funcionalidade de atualização automática que mantém sua configuração de computação do Spark alinhada com as otimizações mais recentes de Fabric. Quando a atualização automática está habilitada, Fabric aplica propriedades do Spark específicas da carga de trabalho com base no seu tipo de perfil de recurso, sem a necessidade de ajuste manual.

Configurações de atualização automática

Fabric fornece três perfis de atualização automática, cada um ajustado para um padrão de carga de trabalho específico:

Cargas de trabalho do Spark com predominância de leitura

Definir por meio de spark.fabric.resourceProfile.readHeavyForSparkAutoUpdate:

{
    "spark.databricks.delta.optimizeWrite.enabled": "true",
    "spark.databricks.delta.optimizeWrite.partitioned.enabled": "true",
    "spark.databricks.delta.optimizeWrite.binSize": "128"
}

Use esse perfil quando sua carga de trabalho for dominada por leituras do Spark com necessidades moderadas de otimização de gravação.

Cargas de trabalho do Power BI com predominância de leitura

Definir por meio de spark.fabric.resourceProfile.readHeavyForPBIAutoUpdate:

{
    "spark.sql.parquet.vorder.default": "true",
    "spark.databricks.delta.optimizeWrite.enabled": "true",
    "spark.databricks.delta.optimizeWrite.binSize": "1g"
}

Use esse perfil quando os dados forem consumidos principalmente por Power BI. O V-Order está habilitado para o desempenho ideal do DirectLake e um tamanho de compartimento maior produz menos arquivos maiores adequados para leituras analíticas.

Cargas de trabalho com uso intenso de gravação

Definir por meio de spark.fabric.resourceProfile.writeHeavyAutoUpdate:

{
    "spark.sql.parquet.vorder.default": "false",
    "spark.databricks.delta.optimizeWrite.binSize": "128",
    "spark.databricks.delta.optimizeWrite.partitioned.enabled": "true"
}

Use esse perfil quando sua carga de trabalho estiver com uso intensivo de gravação (por exemplo, ingestão de alto volume ou ETL). O V-Order está desabilitado para reduzir a sobrecarga de gravação e a gravação otimizada com particionamento está habilitada para layout de arquivo eficiente.

Como a atualização automática funciona

Quando um perfil de recurso com atualização automática é aplicado:

  1. Fabric seleciona a configuração de atualização automática apropriada com base no seu caso de uso primário e no tipo de carga de trabalho.
  2. As propriedades do Spark são aplicadas automaticamente a novas sessões no workspace.
  3. As sessões ativas não são afetadas até que sejam reiniciadas.

Observação

As configurações de atualização automática otimizam o comportamento de gravação e o layout de arquivo do Delta Lake dentro dos limites de suas entradas de perfil originais. Eles não alteram o tamanho do seu pool, a configuração do nó ou as configurações de dimensionamento automático.

Referência de configuração

Setting Propriedades aplicadas Quando usar
spark.fabric.resourceProfile.readHeavyForSparkAutoUpdate Gravação otimizada habilitada, gravação particionada, tamanho de bloco de 128 MB Análises do Spark com predominância de leitura
spark.fabric.resourceProfile.readHeavyForPBIAutoUpdate Ordem V habilitada, gravação otimizada, tamanho do compartimento de 1 GB Power BI/DirectLake com predominância de leitura
spark.fabric.resourceProfile.writeHeavyAutoUpdate V-Order desabilitado, gravação otimizada, tamanho do compartimento de 128 MB, particionado Ingestão e ETL com alta intensidade de gravação