Configurar perfis de recursos no Microsoft Fabric

Aplica-se a:✅ Engenharia de Dados de Tecido e Ciência de Dados

Perfis de recursos em Engenharia de Dados de Tecidos ajudam-te a obter configurações de computação otimizadas do Spark sem ajustes manuais. Descreve a sua carga de trabalho selecionando um caso de uso principal, volume de dados e algumas outras entradas de alto nível. O Fabric gera então uma configuração recomendada — incluindo tamanhos de nós, definições de autoescala e versão em tempo de execução — com base em boas práticas comprovadas e dados internos de desempenho.

Por que usar perfis de recursos

Os perfis de recursos fornecem:

  • Otimizado desde o inizo: A sua primeira sessão Spark corre com compute tuneado para a sua carga de trabalho — sem necessidade de benchmarking iterativo.
  • Consistência: Todos os trabalhos Spark no espaço de trabalho partilham a mesma configuração ajustada ao desempenho.
  • Melhor custo-benefício: Recursos do tamanho certo reduzem o desperdício e melhoram o fluxo.
  • Menor sobrecarga operacional: Menos ciclos de afinação e menos escalonamentos de apoio.

Pré-requisitos

Para configurar perfis de recursos, deve ter o papel de Administrador para o espaço de trabalho.

Configurar um perfil de recurso

Para configurar um perfil de recursos para o seu espaço de trabalho:

  1. Vai ao teu espaço de trabalho e seleciona Definições do espaço de trabalho.

  2. Expande Engenharia de Dados/Ciência no painel esquerdo e depois seleciona as definições do Spark.

  3. Para obter uma configuração de computação recomendada para otimizar o uso dos seus recursos, em Otimizar para o seu caso de uso, selecione Começar.

    Captura de ecrã a mostrar o botão Começar em Otimizar para o teu caso de uso nas definições do Spark.

  4. Na página Otimizar para o seu caso de uso , forneça as seguintes entradas:

    • Caso de uso principal: Selecione a camada Medallion ou a Baseada em Tarefas, depois escolha uma opção específica no menu suspenso. As opções de camadas de medalhão são Bronze, Prata ou Ouro. As opções baseadas em tarefas são otimizadas para leitura ou otimizadas para escrita. Para orientação na escolha de um caso de uso, consulte Referência principal do caso de uso.
    • Volume típico de dados: Selecione um volume no menu suspenso: Até 1 GB, 10 GB, 100 GB,1 TB ou mais de 1 TB.
    • Unidades de capacidade máxima (CU): Use o controlo deslizante para definir o limite máximo de CU para o parque Spark.
  5. Selecionar Obter recomendação.

    Captura de ecrã a mostrar o botão para obter recomendações.

    O Fabric gera uma configuração otimizada com base nas suas entradas.

  6. Veja a recomendação. A recomendação inclui valores para duas categorias:

    • Spark pool: Tipo de pool, família de nós, tamanho do nó, escalonamento automático e alocação dinâmica de executores.
    • Ambiente: Versão em tempo de execução, núcleos e memória do driver Spark, núcleos executores Spark, memória e instâncias.

    Captura de ecrã que mostra a configuração recomendada para o caso de uso selecionado, incluindo perfil de recursos, definições do nó e versão em tempo de execução.

    Se quiser ajustar as suas entradas, selecione a seta para trás para voltar à página anterior, atualize as suas escolhas e depois selecione novamente Obter recomendação .

  7. Introduza o nome do pool Spark e o Ambiente para a configuração, depois selecione Aplicar para guardar no espaço de trabalho.

    Captura de ecrã a mostrar o botão para aplicar recomendações.

Depois de aplicares um perfil de recurso, o Fabric cria um pool personalizado do Spark com as definições recomendadas.

Observação

Se o seu espaço de trabalho ainda não tiver um pool personalizado, o novo pool é automaticamente definido como o pool padrão para o workspace. Se o teu espaço de trabalho já tiver um pool predefinido, tens de mudar manualmente para o novo pool nas definições do workspace do Spark. As sessões ativas não são afetadas até serem reiniciadas.

Referência principal do caso de uso

Utilize as seguintes orientações para selecionar a entrada correta do caso de uso primário ao configurar um perfil de recurso:

Camada de medalhão

Escolha a camada Medallion se o seu pipeline de dados seguir o padrão de arquitetura em medalhão, em que os dados passam pelas fases Bronze (raw), Silver (limpo) e Gold (curado). Cada opção ajusta o cálculo para as características de leitura/escrita típicas dessa fase.

Caso de utilização Quando utilizar
Bronze Ingestão de dados brutos, elevada taxa de escrita, formatos diversos
Prata Limpeza e enriquecimento, leitura/escrita equilibrada com junções moderadas
Ouro Agregação e relatórios, otimizados para leitura e análise de dados e Power BI

Baseado em tarefas

Escolha Baseado em Tarefas se a sua carga de trabalho não seguir o padrão medallion ou se for dominado por um único padrão de acesso. Por exemplo, use esta opção para trabalhos ETL autónomos, cadernos de análise interativos ou pipelines de streaming.

Caso de utilização Quando utilizar
Leitura otimizada Leituras e consultas frequentes, cadernos interativos
Otimização para escrita Ingestão de dados de alto volume, pipelines de ETL, streaming

Perfis de recursos com atualização automática

Os perfis de recursos suportam uma capacidade de atualização automática que mantém a configuração de computação do Spark alinhada com as otimizações mais recentes do Fabric. Quando a atualização automática está ativada, o Fabric aplica propriedades Spark específicas da carga de trabalho com base no tipo de perfil de recurso, sem necessidade de ajuste manual.

Configurações de atualização automática

O Fabric fornece três perfis de atualização automática, cada um ajustado para um padrão específico de carga de trabalho:

Cargas de trabalho do Spark com predominância de leitura

Definido via spark.fabric.resourceProfile.readHeavyForSparkAutoUpdate:

{
    "spark.databricks.delta.optimizeWrite.enabled": "true",
    "spark.databricks.delta.optimizeWrite.partitioned.enabled": "true",
    "spark.databricks.delta.optimizeWrite.binSize": "128"
}

Utilize este perfil quando a sua carga de trabalho for dominada por operações de leitura no Spark, com necessidades moderadas de otimização da escrita.

Com utilização intensiva de leitura para cargas de trabalho do Power BI

Definido via spark.fabric.resourceProfile.readHeavyForPBIAutoUpdate:

{
    "spark.sql.parquet.vorder.default": "true",
    "spark.databricks.delta.optimizeWrite.enabled": "true",
    "spark.databricks.delta.optimizeWrite.binSize": "1g"
}

Use este perfil quando os seus dados forem principalmente consumidos pelo Power BI. A ordenação V-Order está ativada para um desempenho ideal do DirectLake, e um tamanho de agrupamento maior produz menos ficheiros, mas de maior dimensão, adequados para leituras analíticas.

Cargas de trabalho intensivas de gravação

Definido via spark.fabric.resourceProfile.writeHeavyAutoUpdate:

{
    "spark.sql.parquet.vorder.default": "false",
    "spark.databricks.delta.optimizeWrite.binSize": "128",
    "spark.databricks.delta.optimizeWrite.partitioned.enabled": "true"
}

Use este perfil quando a sua carga de trabalho for intensiva em escrita (por exemplo, ingesta de alto volume ou ETL). A V-Order está desativada para reduzir a sobrecarga de escrita, e a escrita otimizada com partição está ativada para um layout eficiente dos ficheiros.

Como funciona a atualização automática

Quando é aplicado um perfil de recursos com atualização automática:

  1. O Fabric seleciona a configuração de atualização automática apropriada com base no seu caso de uso principal e tipo de carga de trabalho.
  2. As propriedades do Spark são aplicadas automaticamente a novas sessões no espaço de trabalho.
  3. As sessões ativas não são afetadas até serem reiniciadas.

Observação

As configurações de atualização automática otimizam o comportamento de escrita do Delta Lake e o layout dos ficheiros dentro dos limites das entradas originais do seu perfil. Eles não alteram o tamanho do teu pool, configuração de nós ou definições de autoescalabilidade.

Referência de configuração

Configuração Propriedades aplicadas Quando utilizar
spark.fabric.resourceProfile.readHeavyForSparkAutoUpdate Otimização de escrita ativada, escrita particionada, tamanho do contentor de 128 MB Análises do Spark com utilização intensiva de leitura
spark.fabric.resourceProfile.readHeavyForPBIAutoUpdate V-Order ativado, otimização de escrita, tamanho de bin de 1 GB Power BI/DirectLake com grande intensidade de leitura
spark.fabric.resourceProfile.writeHeavyAutoUpdate V-Order desativado, escrita otimizada, tamanho do bin de 128 MB, particionado Ingestão e ETL com utilização intensiva de escrita