Usar o operador de GPU NVIDIA no AKS (Serviço de Kubernetes do Azure)

O Operador de GPU NVIDIA automatiza o gerenciamento e a implantação de todos os componentes de software NVIDIA necessários para provisionar a GPU, incluindo a instalação do driver, o plug-in de dispositivo NVIDIA para Kubernetes, o runtime de contêiner NVIDIA e muito mais. Como o Operador de GPU NVIDIA manipula esses componentes, não é necessário instalar separadamente o plug-in de dispositivo NVIDIA no cluster do AKS. Isso também significa que a instalação automática do driver de GPU deve ser ignorada para usar o Operador de GPU NVIDIA no AKS.

Dica

Se você não precisar do controle total do Operador de GPU NVIDIA, os pools de nós de GPU gerenciados pelo AKS (versão prévia) instalarão e manterão o driver NVIDIA, o plug-in do dispositivo Kubernetes e o exportador de métricas DCGM para você.

Importante

O software de código aberto é mencionado em toda a documentação e amostras do AKS. O software que você implanta está excluído dos contratos de nível de serviço do AKS, garantia limitada e suporte do Azure. Ao usar tecnologia de código aberto junto com o AKS, consulte as opções de suporte disponíveis nas comunidades e mantenedores de projetos respectivos para desenvolver um plano.

A Microsoft assume a responsabilidade por criar os pacotes de código aberto que implantamos no AKS. Essa responsabilidade inclui ter propriedade completa do processo de criação, verificação, sinalização, validação e hotfix, junto com o controle sobre os binários em imagens de contêiner. Para obter mais informações, confira Gerenciamento de vulnerabilidades para o AKS e Cobertura de suporte do AKS.

Antes de começar

  • Este artigo considera que você tenha um cluster do AKS. Se você não tiver um cluster, crie um usando a CLI do Azure, Azure PowerShell, ou o portal do Azure.
  • Você precisa da CLI do Azure versão 2.72.2 ou posterior instalada para definir o --gpu-driver campo. Execute az --version para encontrar a versão. Se você precisa instalar ou atualizar, consulte Instalar a CLI do Azure.

Observação

As VMs habilitadas para GPU contêm um hardware especializado sujeito a preços mais altos e disponibilidade da região. Para obter mais informações, confira a ferramenta preço e a disponibilidade de região.

Limitações

Obter as credenciais para o cluster

Obtenha as credenciais do cluster do AKS usando o comando az aks get-credentials. O seguinte comando de exemplo obtém as credenciais do cluster myAKSCluster no myResourceGroup grupo de recursos:

az aks get-credentials --resource-group myResourceGroup --name myAKSCluster

Observação

O Operador de GPU NVIDIA não é compatível com várias versões do sistema operacional no mesmo cluster do AKS.

  1. Pule a instalação automática do driver de GPU criando um pool de nós habilitado para GPU NVIDIA usando o comando [az aks nodepool add][az-aks-nodepool-add] e definindo o campo de API --gpu-driver para o valor none. A definição desse campo de API como none durante a criação do pool de nós pula a instalação padrão do driver de GPU, confira este exemplo. Os nós existentes não são alterados. Você pode dimensionar o pool de nós para zero e fazer backup para fazer a alteração entrar em vigor.

  2. Siga a documentação da NVIDIA para instalar o operador de GPU.

  3. Agora que você instalou com êxito o Operador GPU, você pode verificar se suas GPUs são programáveis e executar uma carga de trabalho de GPU.

Observação

Pode haver considerações adicionais a serem feitas ao usar o Operador de GPU NVIDIA e implantar em instâncias SPOT. Consulte https://github.com/NVIDIA/gpu-operator/issues/577

Próximas etapas