Remarque
L’accès à cette page nécessite une autorisation. Vous pouvez essayer de vous connecter ou de modifier des répertoires.
L’accès à cette page nécessite une autorisation. Vous pouvez essayer de modifier des répertoires.
S’applique à : ✔️ AKS Automatic ✔️ AKS Standard
Azure Kubernetes Service (AKS) surveille en permanence l’état d’intégrité des nœuds Worker et effectue une réparation automatique des nœuds s’ils ne sont pas sains. La plateforme de machines virtuelles Azure effectue la maintenance des machines virtuelles qui rencontrent des problèmes. AKS et les machines virtuelles Azure opèrent ensemble pour réduire les interruptions de service pour vos clusters.
Pour la plupart des charges de travail de production, AKS Automatic est l’option par défaut recommandée et prête pour la production pour AKS. Les clusters AKS Automatic et AKS Standard sont préconfigurés avec la réparation automatique des nœuds.
Dans cet article, vous allez découvrir comment fonctionne la réparation automatique des nœuds, quand des actions de réparation se déclenchent, quelles limitations s’appliquent et comment surveiller les événements de réparation.
Comportement de réparation automatique de nœud par mode cluster
Les deux modes de cluster AKS sont préconfigurés avec la réparation automatique des nœuds :
- AKS Automatic : préconfiguré parmi les paramètres par défaut prêts pour la production d’AKS Automatic.
- AKS Standard : préconfiguré sur des clusters AKS Standard sans configuration supplémentaire.
Les deux modes utilisent les mêmes contrôles d’intégrité de nœud et la même séquence de réparation décrite dans cet article.
Pour plus d’informations sur les valeurs par défaut de la plateforme AUTOMATIQUE AKS, consultez Qu’est-ce que Azure Kubernetes Service (AKS) Automatique ?
Comment AKS vérifie les nœuds NotReady
AKS utilise les règles suivantes pour déterminer si un nœud est dans un état non sain et nécessite une réparation :
- Le nœud signale l’état NotReady lors de vérifications consécutives sur une période de 10 minutes.
- Le nœud ne signale aucun état pendant 10 minutes.
Vous pouvez vérifier manuellement l’état d’intégrité de vos nœuds avec la commande kubectl get nodes.
Fonctionnement de la réparation automatique
Remarque
AKS lance des opérations de réparation avec le compte d’utilisateur aks-remediator.
Si AKS identifie un nœud non sain qui reste défectueux pendant au moins cinq minutes, AKS effectue les actions suivantes :
- AKS redémarre le nœud.
- Si le nœud reste défectueux après le redémarrage, AKS réimage le nœud.
- Si le nœud reste défectueux après la réinitialisation et qu’il s’agit d’un nœud Linux, AKS redéploie le nœud.
AKS retente le redémarrage, la réinitialisation et le redéploiement jusqu’à trois fois si le nœud reste défectueux. Le processus global de réparation automatique peut prendre jusqu’à une heure.
Considérations relatives à la production
La réparation automatique des nœuds est un mécanisme de résilience de base, mais il est combiné avec les pratiques de résilience au niveau de la charge de travail :
- Exécutez des charges de travail critiques avec plusieurs répliques.
- Utilisez PodDisruptionBudgets et les sondes de préparation pour réduire l’impact visible par l’utilisateur.
- Surveillez l’activité de réparation et les événements d’erreur pour détecter des problèmes de nœud répétés.
- Intégrez le délai de réparation automatique dans la planification des SLO/SLA et de la réponse aux incidents.
Limites
La réparation automatique des nœuds AKS est un service de meilleure qualité. AKS ne garantit pas qu’un nœud est restauré en état sain dans chaque scénario. Si un nœud reste défectueux, effectuez une investigation manuelle. Pour plus d’informations, consultez Résoudre les problèmes d’état NotReady du nœud.
AKS peut ne pas effectuer de réparation automatique dans les scénarios suivants :
- Une erreur de configuration réseau empêche la création de rapports d’un état de nœud.
- Un nœud ne parvient pas à s’inscrire en tant que nœud sain.
- Un nœud possède l’une des marques suivantes :
node.cloudprovider.kubernetes.io/shutdownToBeDeletedByClusterAutoscaler
- Un nœud est mis à niveau et possède les annotations suivantes :
"cluster-autoscaler.kubernetes.io/scale-down-disabled": "true""kubernetes.azure.com/azure-cluster-autoscaler-scale-down-disabled-reason": "upgrade"
Surveiller la réparation automatique des nœuds à l’aide d’événements Kubernetes
Quand AKS effectue la réparation automatique des nœuds, il émet des événements Kubernetes à partir de la aks-auto-repair source. Les événements suivants s’affichent sur un objet de nœud lorsque la réparation automatique se produit.
Pour en savoir plus sur l’accès, le stockage et les alertes sur les événements Kubernetes, consultez Utiliser des événements Kubernetes pour la résolution des problèmes dans AKS.
| Motif | Message d’événement | Descriptif |
|---|---|---|
| NodeRebootStart | La réparation automatique de nœud lance une action de redémarrage en raison de la persistance de l’état NotReady pendant plus de cinq minutes. | Cet événement vous avertit lorsque le redémarrage est sur le point d’être effectué sur votre nœud. Cette action est la première dans la séquence globale de réparation automatique des nœuds. |
| NodeRebootEnd | L’action de redémarrage de la réparation automatique des nœuds est terminée. | Émis une fois le redémarrage terminé sur le nœud. Cet événement n’indique pas l’état d’intégrité (sain ou non sain) du nœud après le redémarrage. |
| NodeReimageStart | L’autoréparation du nœud déclenche une action de recréation de l’image, car l’état NotReady persiste depuis plus de cinq minutes. | Cet événement vous avertit lorsqu’une réimagerie est sur le point d’être effectuée de votre nœud. |
| NodeReimageEnd | L’action de réinitialisation de la réparation automatique des nœuds est terminée. | Émis une fois la réinitialisation terminée sur le nœud. Cet événement n’indique pas l’état d’intégrité (sain ou non sain) du nœud après la réinitialisation. |
| NodeRedeployStart | L’auto-réparation du nœud lance un redéploiement, car l’état NotReady persiste depuis plus de cinq minutes. | Cet événement vous avertit lorsque le redéploiement est sur le point d’être effectué sur votre nœud. Le redéploiement est la dernière action de la séquence de réparation automatique des nœuds. |
| NodeRedeployEnd | L’action de redéploiement de la réparation automatique du nœud est terminée. | Émis une fois le redéploiement terminé sur le nœud. Cet événement n’indique pas l’état d’intégrité (sain ou non sain) du nœud après le redéploiement. |
Si des erreurs se produisent pendant la réparation automatique du nœud, AKS émet les événements suivants avec le message d’erreur détaillé. Pour plus d’informations, consultez Résolution des erreurs courantes de réparation automatique des nœuds.
Remarque
Le code d’erreur dans les messages d’événement suivants varie en fonction de l’erreur signalée.
| Motif | Message d’événement | Descriptif |
|---|---|---|
| NodeRebootError | Échec de l’action de redémarrage de la réparation automatique des nœuds en raison d’un échec d’une opération. Consultez les détails de l’erreur ici : Code d’erreur | Émis en cas d’erreur avec l’action de redémarrage. |
| NodeReimageError | Échec de l’action de réinitialisation de la réparation automatique des nœuds en raison d’un échec d’une opération. Consultez les détails de l’erreur ici : Code d’erreur | Émis en cas d’erreur avec l’action de réinitialisation. |
| NodeRedeployError | L’action de redéploiement de la réparation automatique des nœuds a échoué en raison d’un échec d’une opération. Consultez les détails de l’erreur ici : Code d’erreur | Émis en cas d’erreur avec l’action de redéploiement. |
Contenu connexe
- Qu’est-ce que Azure Kubernetes Service (AKS) automatique ?
- Créer un cluster automatique AKS
- Utiliser des événements Kubernetes pour la résolution des problèmes dans AKS
- Résoudre les problèmes d’état NotReady du nœud dans AKS
- Résoudre les erreurs courantes de réparation automatique des nœuds dans AKS
- Vue d’ensemble de Container Insights