Observação
O acesso a essa página exige autorização. Você pode tentar entrar ou alterar diretórios.
O acesso a essa página exige autorização. Você pode tentar alterar os diretórios.
O Operador de GPU NVIDIA automatiza o gerenciamento e a implantação de todos os componentes de software NVIDIA necessários para provisionar a GPU, incluindo a instalação do driver, o plug-in de dispositivo NVIDIA para Kubernetes, o runtime de contêiner NVIDIA e muito mais. Como o Operador de GPU NVIDIA manipula esses componentes, não é necessário instalar separadamente o plug-in de dispositivo NVIDIA no cluster do AKS. Isso também significa que a instalação automática do driver de GPU deve ser ignorada para usar o Operador de GPU NVIDIA no AKS.
Dica
Se você não precisar do controle total do Operador de GPU NVIDIA, os pools de nós de GPU gerenciados pelo AKS (versão prévia) instalarão e manterão o driver NVIDIA, o plug-in do dispositivo Kubernetes e o exportador de métricas DCGM para você.
Importante
O software de código aberto é mencionado em toda a documentação e amostras do AKS. O software que você implanta está excluído dos contratos de nível de serviço do AKS, garantia limitada e suporte do Azure. Ao usar tecnologia de código aberto junto com o AKS, consulte as opções de suporte disponíveis nas comunidades e mantenedores de projetos respectivos para desenvolver um plano.
A Microsoft assume a responsabilidade por criar os pacotes de código aberto que implantamos no AKS. Essa responsabilidade inclui ter propriedade completa do processo de criação, verificação, sinalização, validação e hotfix, junto com o controle sobre os binários em imagens de contêiner. Para obter mais informações, confira Gerenciamento de vulnerabilidades para o AKS e Cobertura de suporte do AKS.
Antes de começar
- Este artigo considera que você tenha um cluster do AKS. Se você não tiver um cluster, crie um usando a CLI do Azure, Azure PowerShell, ou o portal do Azure.
- Você precisa da CLI do Azure versão 2.72.2 ou posterior instalada para definir o
--gpu-drivercampo. Executeaz --versionpara encontrar a versão. Se você precisa instalar ou atualizar, consulte Instalar a CLI do Azure.
Observação
As VMs habilitadas para GPU contêm um hardware especializado sujeito a preços mais altos e disponibilidade da região. Para obter mais informações, confira a ferramenta preço e a disponibilidade de região.
Limitações
- O Operador de GPU NVIDIA não é suportado para as seguintes opções de sistema operacional: versões do Windows Server, Flatcar Container Linux para AKS (versão prévia) e Azure Linux com o OS Guard para AKS (versão prévia).
Obter as credenciais para o cluster
Obtenha as credenciais do cluster do AKS usando o comando az aks get-credentials. O seguinte comando de exemplo obtém as credenciais do cluster myAKSCluster no myResourceGroup grupo de recursos:
az aks get-credentials --resource-group myResourceGroup --name myAKSCluster
Observação
O Operador de GPU NVIDIA não é compatível com várias versões do sistema operacional no mesmo cluster do AKS.
Pule a instalação automática do driver de GPU criando um pool de nós habilitado para GPU NVIDIA usando o comando [
az aks nodepool add][az-aks-nodepool-add] e definindo o campo de API--gpu-driverpara o valornone. A definição desse campo de API comononedurante a criação do pool de nós pula a instalação padrão do driver de GPU, confira este exemplo. Os nós existentes não são alterados. Você pode dimensionar o pool de nós para zero e fazer backup para fazer a alteração entrar em vigor.Siga a documentação da NVIDIA para instalar o operador de GPU.
Agora que você instalou com êxito o Operador GPU, você pode verificar se suas GPUs são programáveis e executar uma carga de trabalho de GPU.
Observação
Pode haver considerações adicionais a serem feitas ao usar o Operador de GPU NVIDIA e implantar em instâncias SPOT. Consulte https://github.com/NVIDIA/gpu-operator/issues/577
Próximas etapas
- Compare com os pools de nós de GPU gerenciados pelo AKS (versão preliminar), que instalam e mantêm o driver da NVIDIA, o plug-in do dispositivo e o exportador de métricas DCGM para você.
- Monitore as métricas de GPU da NVIDIA usando o Prometheus Gerenciado do Azure e o Grafana Gerenciado do Azure.
- Saiba mais sobre clusters Ray no AKS.