Criar um cluster do Spark

Concluído

Você pode criar um ou mais clusters em seu workspace do Azure Databricks usando a interface do usuário do Workspace do Azure Databricks.

Captura de tela da interface Criar Cluster na interface do workspace do Azure Databricks.

Ao criar o cluster, você pode especificar as configurações, incluindo:

  • Um nome para o cluster.
  • Um modo de acesso, que controla como os usuários interagem com o cluster:
    • Padrão: vários usuários podem compartilhar o cluster simultaneamente. O isolamento entre o código do usuário é imposto automaticamente. Adequado para engenharia de dados colaborativa e análise compartilhada.
    • Dedicado: o cluster é atribuído exclusivamente a um único usuário ou grupo. Necessário para cargas de trabalho que usam APIs RDD, aceleração de GPU ou suporte à linguagem R.
  • A arquitetura do cluster, que determina como a computação é distribuída:
    • Multinó: um nó de driver e um ou mais nós de trabalho. Habilita o processamento distribuído e o dimensionamento horizontal para grandes conjuntos de dados.
    • Nó único: somente nó de driver, sem nós de trabalho. Adequado para pequenos conjuntos de dados, exploração leve ou estruturas de aprendizado de máquina, como scikit-learn, que não realizam distribuição entre nós.
  • A versão do Databricks Runtime a ser usada no cluster; que determina a versão do Spark e componentes individuais, como Python, Scala e outros que são instalados.
  • O tipo de máquina virtual (VM) usada para os nós de trabalho no cluster.
  • O número mínimo e máximo de nós de trabalho no cluster.
  • O tipo de VM usado para o nó driver do cluster.
  • Se o cluster dá suporte ao dimensionamento automático para redimensionar dinamicamente o cluster.
  • Quanto tempo o cluster pode permanecer ocioso antes de ser desligado automaticamente.

Como o Azure gerencia recursos de cluster

Quando você cria um workspace do Azure Databricks, um dispositivo do Databricks é implantado como um recurso do Azure em sua assinatura. Ao criar um cluster no workspace, você especifica os tipos e tamanhos das VMs (máquinas virtuais) a serem usadas para os nós driver e de trabalho, bem como algumas outras opções de configuração, mas o Azure Databricks gerencia todos os outros aspectos do cluster.

O dispositivo Databricks é implantado no Azure como um grupo de recursos gerenciados em sua assinatura. Esse grupo de recursos contém as VMs driver e de trabalho para seus clusters, juntamente com outros recursos necessários, incluindo uma rede virtual, um grupo de segurança e uma conta de armazenamento. Todos os metadados de seu cluster, como trabalhos agendados, são armazenados em um Banco de dados do Azure com replicação geográfica para obter tolerância a falhas.

O Azure Databricks é dividido em dois planos principais: o plano de controle, que consiste em serviços de back-end (por exemplo, a interface do usuário da Web) gerenciados pela Microsoft e o plano de computação, no qual as cargas de trabalho de dados são executadas. Há duas variantes de computação: computação clássica, que usa sua própria assinatura do Azure e rede virtual (oferecendo isolamento dentro de sua assinatura) e computação sem servidor, que é executada no ambiente gerenciado do Databricks, mas ainda na mesma região do Azure que seu workspace, com controles de rede e segurança para isolar entre os clientes. Cada workspace tem uma conta de armazenamento em sua assinatura que contém dados do sistema (notebooks, logs, metadados de trabalho), o DBFS (sistema de arquivos distribuído) e ativos de catálogo (se você tiver o Catálogo do Unity habilitado), com controles adicionais para rede, firewall e acesso para garantir a segurança e o isolamento adequado.

Diagrama da arquitetura do Azure Databricks.

Tip

Para o desenvolvimento interativo do notebook e a maioria das cargas de trabalho de ETL, considere a computação sem servidor em vez de clusters de computação clássicos. A computação sem servidor começa em 2 a 6 segundos, é totalmente gerenciada por Azure Databricks e é dimensionada automaticamente — sem a necessidade de configuração de cluster. Para obter uma comparação mais profunda das opções de computação, consulte Select e configure a computação em Azure Databricks no Microsoft Learn.

Observação

Você também tem a opção de anexar seu cluster a um pool de nós ociosos para reduzir o tempo de inicialização do cluster. Para obter mais informações, consulte Pools na documentação do Azure Databricks.