Observação
O acesso a essa página exige autorização. Você pode tentar entrar ou alterar diretórios.
O acesso a essa página exige autorização. Você pode tentar alterar os diretórios.
Aplica-se a:✅ Engenharia de dados e ciência de dados do Fabric
Perfis de recursos na Engenharia de Dados do Fabric ajudam você a obter configurações de computação do Spark otimizadas sem ajuste manual. Você descreve sua carga de trabalho selecionando um caso de uso primário, volume de dados e algumas outras entradas de alto nível. Em seguida, o Fabric gera uma configuração recomendada, incluindo tamanhos de nó, configurações de dimensionamento automático e versão de tempo de execução, com base em práticas recomendadas comprovadas e dados de desempenho interno.
Por que usar perfis de recurso
Os perfis de recurso fornecem:
- Otimizado desde o início: sua primeira sessão do Spark é executada na computação ajustada para sua carga de trabalho , sem necessidade de benchmarking iterativo.
- Consistência: todos os trabalhos do Spark no workspace compartilham a mesma configuração ajustada pelo desempenho.
- Melhor preço-desempenho: recursos de dimensionamento adequado reduzem o desperdício e melhoram a eficiência.
- Menor sobrecarga operacional: menos ciclos de ajuste e menos escalonamentos de suporte.
Pré-requisitos
Para configurar perfis de recurso, você deve ter a função de Administrador para o workspace.
Configurar um perfil de recurso
Para configurar um perfil de recurso para seu workspace:
Vá para o workspace e selecione as configurações do Workspace.
Expanda Engenharia de Dados/Ciência no painel esquerdo e selecione as configurações do Spark.
Para obter uma configuração de computação recomendada para otimizar o uso de recursos, em Otimizar para seu caso de uso, selecioneIntrodução.
Na página Otimizar para seu caso de uso , forneça as seguintes entradas:
- Caso de uso primário: Selecione a camada medalhão ou a base de tarefas, e então escolha uma opção específica na lista suspensa. As opções de camada de medalhão são Bronze, Prata ou Ouro. As opções baseadas em tarefas são otimizadas para leitura ou otimizadas para gravação. Para obter diretrizes sobre como escolher um caso de uso, consulte Referência de caso de uso primário.
- Volume de dados típico: selecione um volume na lista suspensa: até 1 GB, 10 GB, 100 GB, 1 TB ou mais de 1 TB.
- Unidades de capacidade máxima (CU): Use o slider para definir o limite máximo para o pool do Spark.
Selecione Obter recomendação.
O Fabric gera uma configuração otimizada com base em suas entradas.
Examine a recomendação. A recomendação inclui valores para duas categorias:
- Pool do Spark: tipo de pool, família de nós, tamanho do nó, dimensionamento automático e alocação de executor dinâmico.
- Ambiente: versão de runtime, núcleos e memória do driver Spark, núcleos, memória e instâncias do executor Spark.
Se você quiser ajustar suas entradas, selecione a seta para trás para retornar à página anterior, atualize suas seleções e selecione Obter recomendação novamente.
Insira um nome de pool do Spark e o Ambiente para a configuração e, em seguida, selecione Aplicar para salvá-lo no workspace.
Depois de aplicar um perfil de recurso, o Fabric criará um pool personalizado do Spark com as configurações recomendadas.
Observação
Se o workspace ainda não tiver um pool personalizado, o novo pool será automaticamente definido como o pool padrão para o workspace. Se o workspace já tiver um pool padrão, você precisará alternar manualmente para o novo pool nas configurações do workspace do Spark. As sessões ativas não são afetadas até serem reiniciadas.
Referência de caso de uso primário
Use as diretrizes a seguir para selecionar a entrada de caso de uso primário correta ao configurar um perfil de recurso:
Camada de medalhão
Escolha Medallion layer se o pipeline de dados seguir o padrão de arquitetura Medallion, no qual os dados passam pelos estágios Bronze (bruto), Prata (limpo) e Ouro (curado). Cada opção ajusta a computação para as características de leitura/gravação típicas desse estágio.
| Caso de uso | Quando usar |
|---|---|
| Bronze | Ingestão de dados brutos, alta taxa de transferência de escrita, formatos diversos |
| Prata | Limpeza e enriquecimento, leitura/gravação balanceada com junções moderadas |
| Ouro | Agregação e relatórios, otimizado para leitura para análise e Power BI |
Baseado em tarefas
Escolha Baseado em tarefas se sua carga de trabalho não seguir o padrão de medalhão ou se for dominada por um único padrão de acesso. Por exemplo, use essa opção para trabalhos ETL autônomos, notebooks interativos de análise ou pipelines de streaming.
| Caso de uso | Quando usar |
|---|---|
| Leitura otimizada | Leituras e consultas frequentes, notebooks interativos |
| Gravação otimizada | Ingestão de grande volume, canais de ETL, transmissão contínua |
Atualizar perfis de recursos automaticamente
Os perfis de recursos dão suporte a uma funcionalidade de atualização automática que mantém sua configuração de computação do Spark alinhada com as otimizações mais recentes de Fabric. Quando a atualização automática está habilitada, Fabric aplica propriedades do Spark específicas da carga de trabalho com base no seu tipo de perfil de recurso, sem a necessidade de ajuste manual.
Configurações de atualização automática
Fabric fornece três perfis de atualização automática, cada um ajustado para um padrão de carga de trabalho específico:
Cargas de trabalho do Spark com predominância de leitura
Definir por meio de spark.fabric.resourceProfile.readHeavyForSparkAutoUpdate:
{
"spark.databricks.delta.optimizeWrite.enabled": "true",
"spark.databricks.delta.optimizeWrite.partitioned.enabled": "true",
"spark.databricks.delta.optimizeWrite.binSize": "128"
}
Use esse perfil quando sua carga de trabalho for dominada por leituras do Spark com necessidades moderadas de otimização de gravação.
Cargas de trabalho do Power BI com predominância de leitura
Definir por meio de spark.fabric.resourceProfile.readHeavyForPBIAutoUpdate:
{
"spark.sql.parquet.vorder.default": "true",
"spark.databricks.delta.optimizeWrite.enabled": "true",
"spark.databricks.delta.optimizeWrite.binSize": "1g"
}
Use esse perfil quando os dados forem consumidos principalmente por Power BI. O V-Order está habilitado para o desempenho ideal do DirectLake e um tamanho de compartimento maior produz menos arquivos maiores adequados para leituras analíticas.
Cargas de trabalho com uso intenso de gravação
Definir por meio de spark.fabric.resourceProfile.writeHeavyAutoUpdate:
{
"spark.sql.parquet.vorder.default": "false",
"spark.databricks.delta.optimizeWrite.binSize": "128",
"spark.databricks.delta.optimizeWrite.partitioned.enabled": "true"
}
Use esse perfil quando sua carga de trabalho estiver com uso intensivo de gravação (por exemplo, ingestão de alto volume ou ETL). O V-Order está desabilitado para reduzir a sobrecarga de gravação e a gravação otimizada com particionamento está habilitada para layout de arquivo eficiente.
Como a atualização automática funciona
Quando um perfil de recurso com atualização automática é aplicado:
- Fabric seleciona a configuração de atualização automática apropriada com base no seu caso de uso primário e no tipo de carga de trabalho.
- As propriedades do Spark são aplicadas automaticamente a novas sessões no workspace.
- As sessões ativas não são afetadas até que sejam reiniciadas.
Observação
As configurações de atualização automática otimizam o comportamento de gravação e o layout de arquivo do Delta Lake dentro dos limites de suas entradas de perfil originais. Eles não alteram o tamanho do seu pool, a configuração do nó ou as configurações de dimensionamento automático.
Referência de configuração
| Setting | Propriedades aplicadas | Quando usar |
|---|---|---|
spark.fabric.resourceProfile.readHeavyForSparkAutoUpdate |
Gravação otimizada habilitada, gravação particionada, tamanho de bloco de 128 MB | Análises do Spark com predominância de leitura |
spark.fabric.resourceProfile.readHeavyForPBIAutoUpdate |
Ordem V habilitada, gravação otimizada, tamanho do compartimento de 1 GB | Power BI/DirectLake com predominância de leitura |
spark.fabric.resourceProfile.writeHeavyAutoUpdate |
V-Order desabilitado, gravação otimizada, tamanho do compartimento de 128 MB, particionado | Ingestão e ETL com alta intensidade de gravação |