Nota
O acesso a esta página requer autorização. Pode tentar iniciar sessão ou alterar os diretórios.
O acesso a esta página requer autorização. Pode tentar alterar os diretórios.
Aplica-se a:✅ Engenharia de Dados de Tecido e Ciência de Dados
Perfis de recursos em Engenharia de Dados de Tecidos ajudam-te a obter configurações de computação otimizadas do Spark sem ajustes manuais. Descreve a sua carga de trabalho selecionando um caso de uso principal, volume de dados e algumas outras entradas de alto nível. O Fabric gera então uma configuração recomendada — incluindo tamanhos de nós, definições de autoescala e versão em tempo de execução — com base em boas práticas comprovadas e dados internos de desempenho.
Por que usar perfis de recursos
Os perfis de recursos fornecem:
- Otimizado desde o inizo: A sua primeira sessão Spark corre com compute tuneado para a sua carga de trabalho — sem necessidade de benchmarking iterativo.
- Consistência: Todos os trabalhos Spark no espaço de trabalho partilham a mesma configuração ajustada ao desempenho.
- Melhor custo-benefício: Recursos do tamanho certo reduzem o desperdício e melhoram o fluxo.
- Menor sobrecarga operacional: Menos ciclos de afinação e menos escalonamentos de apoio.
Pré-requisitos
Para configurar perfis de recursos, deve ter o papel de Administrador para o espaço de trabalho.
Configurar um perfil de recurso
Para configurar um perfil de recursos para o seu espaço de trabalho:
Vai ao teu espaço de trabalho e seleciona Definições do espaço de trabalho.
Expande Engenharia de Dados/Ciência no painel esquerdo e depois seleciona as definições do Spark.
Para obter uma configuração de computação recomendada para otimizar o uso dos seus recursos, em Otimizar para o seu caso de uso, selecione Começar.
Na página Otimizar para o seu caso de uso , forneça as seguintes entradas:
- Caso de uso principal: Selecione a camada Medallion ou a Baseada em Tarefas, depois escolha uma opção específica no menu suspenso. As opções de camadas de medalhão são Bronze, Prata ou Ouro. As opções baseadas em tarefas são otimizadas para leitura ou otimizadas para escrita. Para orientação na escolha de um caso de uso, consulte Referência principal do caso de uso.
- Volume típico de dados: Selecione um volume no menu suspenso: Até 1 GB, 10 GB, 100 GB,1 TB ou mais de 1 TB.
- Unidades de capacidade máxima (CU): Use o controlo deslizante para definir o limite máximo de CU para o parque Spark.
Selecionar Obter recomendação.
O Fabric gera uma configuração otimizada com base nas suas entradas.
Veja a recomendação. A recomendação inclui valores para duas categorias:
- Spark pool: Tipo de pool, família de nós, tamanho do nó, escalonamento automático e alocação dinâmica de executores.
- Ambiente: Versão em tempo de execução, núcleos e memória do driver Spark, núcleos executores Spark, memória e instâncias.
Se quiser ajustar as suas entradas, selecione a seta para trás para voltar à página anterior, atualize as suas escolhas e depois selecione novamente Obter recomendação .
Introduza o nome do pool Spark e o Ambiente para a configuração, depois selecione Aplicar para guardar no espaço de trabalho.
Depois de aplicares um perfil de recurso, o Fabric cria um pool personalizado do Spark com as definições recomendadas.
Observação
Se o seu espaço de trabalho ainda não tiver um pool personalizado, o novo pool é automaticamente definido como o pool padrão para o workspace. Se o teu espaço de trabalho já tiver um pool predefinido, tens de mudar manualmente para o novo pool nas definições do workspace do Spark. As sessões ativas não são afetadas até serem reiniciadas.
Referência principal do caso de uso
Utilize as seguintes orientações para selecionar a entrada correta do caso de uso primário ao configurar um perfil de recurso:
Camada de medalhão
Escolha a camada Medallion se o seu pipeline de dados seguir o padrão de arquitetura em medalhão, em que os dados passam pelas fases Bronze (raw), Silver (limpo) e Gold (curado). Cada opção ajusta o cálculo para as características de leitura/escrita típicas dessa fase.
| Caso de utilização | Quando utilizar |
|---|---|
| Bronze | Ingestão de dados brutos, elevada taxa de escrita, formatos diversos |
| Prata | Limpeza e enriquecimento, leitura/escrita equilibrada com junções moderadas |
| Ouro | Agregação e relatórios, otimizados para leitura e análise de dados e Power BI |
Baseado em tarefas
Escolha Baseado em Tarefas se a sua carga de trabalho não seguir o padrão medallion ou se for dominado por um único padrão de acesso. Por exemplo, use esta opção para trabalhos ETL autónomos, cadernos de análise interativos ou pipelines de streaming.
| Caso de utilização | Quando utilizar |
|---|---|
| Leitura otimizada | Leituras e consultas frequentes, cadernos interativos |
| Otimização para escrita | Ingestão de dados de alto volume, pipelines de ETL, streaming |
Perfis de recursos com atualização automática
Os perfis de recursos suportam uma capacidade de atualização automática que mantém a configuração de computação do Spark alinhada com as otimizações mais recentes do Fabric. Quando a atualização automática está ativada, o Fabric aplica propriedades Spark específicas da carga de trabalho com base no tipo de perfil de recurso, sem necessidade de ajuste manual.
Configurações de atualização automática
O Fabric fornece três perfis de atualização automática, cada um ajustado para um padrão específico de carga de trabalho:
Cargas de trabalho do Spark com predominância de leitura
Definido via spark.fabric.resourceProfile.readHeavyForSparkAutoUpdate:
{
"spark.databricks.delta.optimizeWrite.enabled": "true",
"spark.databricks.delta.optimizeWrite.partitioned.enabled": "true",
"spark.databricks.delta.optimizeWrite.binSize": "128"
}
Utilize este perfil quando a sua carga de trabalho for dominada por operações de leitura no Spark, com necessidades moderadas de otimização da escrita.
Com utilização intensiva de leitura para cargas de trabalho do Power BI
Definido via spark.fabric.resourceProfile.readHeavyForPBIAutoUpdate:
{
"spark.sql.parquet.vorder.default": "true",
"spark.databricks.delta.optimizeWrite.enabled": "true",
"spark.databricks.delta.optimizeWrite.binSize": "1g"
}
Use este perfil quando os seus dados forem principalmente consumidos pelo Power BI. A ordenação V-Order está ativada para um desempenho ideal do DirectLake, e um tamanho de agrupamento maior produz menos ficheiros, mas de maior dimensão, adequados para leituras analíticas.
Cargas de trabalho intensivas de gravação
Definido via spark.fabric.resourceProfile.writeHeavyAutoUpdate:
{
"spark.sql.parquet.vorder.default": "false",
"spark.databricks.delta.optimizeWrite.binSize": "128",
"spark.databricks.delta.optimizeWrite.partitioned.enabled": "true"
}
Use este perfil quando a sua carga de trabalho for intensiva em escrita (por exemplo, ingesta de alto volume ou ETL). A V-Order está desativada para reduzir a sobrecarga de escrita, e a escrita otimizada com partição está ativada para um layout eficiente dos ficheiros.
Como funciona a atualização automática
Quando é aplicado um perfil de recursos com atualização automática:
- O Fabric seleciona a configuração de atualização automática apropriada com base no seu caso de uso principal e tipo de carga de trabalho.
- As propriedades do Spark são aplicadas automaticamente a novas sessões no espaço de trabalho.
- As sessões ativas não são afetadas até serem reiniciadas.
Observação
As configurações de atualização automática otimizam o comportamento de escrita do Delta Lake e o layout dos ficheiros dentro dos limites das entradas originais do seu perfil. Eles não alteram o tamanho do teu pool, configuração de nós ou definições de autoescalabilidade.
Referência de configuração
| Configuração | Propriedades aplicadas | Quando utilizar |
|---|---|---|
spark.fabric.resourceProfile.readHeavyForSparkAutoUpdate |
Otimização de escrita ativada, escrita particionada, tamanho do contentor de 128 MB | Análises do Spark com utilização intensiva de leitura |
spark.fabric.resourceProfile.readHeavyForPBIAutoUpdate |
V-Order ativado, otimização de escrita, tamanho de bin de 1 GB | Power BI/DirectLake com grande intensidade de leitura |
spark.fabric.resourceProfile.writeHeavyAutoUpdate |
V-Order desativado, escrita otimizada, tamanho do bin de 128 MB, particionado | Ingestão e ETL com utilização intensiva de escrita |