Plateformes d’incident dans Azure SRE Agent

Une plateforme d’incidents est le système qui indique à votre agent quand un problème se produit. En connectant votre plateforme d’incidents, votre agent peut recevoir des alertes, examiner les problèmes et prendre des mesures automatiquement, sans attendre que quelqu’un démarre une conversation.

Sans plateforme de gestion des incidents, votre agent est réactif : les utilisateurs posent des questions et votre agent enquête à la demande. Avec un agent connecté, votre agent devient proactif : il détecte les incidents dès qu’ils tirent et commence à travailler immédiatement.

Plateformes prises en charge

Plate-forme Ce qu’il fournit
Azure Monitor Aucune information d’identification n’est nécessaire. Il peut se connecter à l’assistant et les alertes de vos groupes de ressources gérés circulent automatiquement, avec les alertes récurrentes fusionnées en un seul fil.
PagerDuty Alertes d’incident et gestion des appels avec intégration basée sur l’API
ServiceNow Intégration de la gestion des services informatiques d’entreprise

Une seule plateforme d’incidents peut être active à la fois. Le passage à une autre plateforme déconnecte celui actuel.

Que permet la connexion d’une plateforme d’incidents

Une fois connecté, votre agent bénéficie de ces fonctionnalités :

Réception automatique des incidents

Les incidents circulent vers votre agent le moment où ils sont créés dans votre plateforme. Personne n’a besoin de copier-coller des alertes ou de démarrer manuellement une investigation. L'agent capte automatiquement les incidents.

Cartes d'incident détaillées

Les incidents entrants provenant de toutes les plateformes prises en charge, notamment PagerDuty, ServiceNow et Azure Monitor, s’affichent sous forme de rich cards dans l’interface de conversation. Chaque carte affiche :

Champ Détails
Badge de gravité Couleur codée par priorité (par exemple, P1/Sev0 = rouge, P2/Sev1 = orange)
Timestamp Lorsque l’incident a été déclenché
Titre Titre de l’incident avec préfixe de plateforme
État État actuel (par exemple, Déclenché, Reconnu)
Description Résumé des incidents
Plan de réponse Lien vers le plan de réponse qui gère l’incident (s’il est configuré)
Afficher les détails Lien vers l’incident dans sa plateforme source

Les cartes enrichies remplacent les notifications d’incident en texte brut utilisées précédemment, ce qui facilite l’analyse des détails des incidents en un clin d’œil.

Interaction avec les incidents

Votre agent peut lire et réécrire l’incident. Ces outils sont disponibles automatiquement lorsque vous connectez la plateforme correspondante sans configuration supplémentaire nécessaire.

Plate-formeFonctionnalités de lectureFonctionnalités d’écriture
Azure Monitor.Détails de l’alerte, gravité, ressources affectéesAccuser réception des alertes, fermer les alertes
PagerDutyDétails de l’incident, diagnosticsReconnaître, résoudre, ajouter des notes
ServiceNowDétails de l’incidentPublier des entrées de discussion, reconnaître, résoudre

Plans de réponse

Les plans de réponse définissent ce que fait votre agent lorsque des types spécifiques d’incidents arrivent. Vous configurez des règles en fonction de la gravité des incidents, des modèles de titre ou d’autres critères, et l’agent suit automatiquement le plan.

En savoir plus : Plans de réponse aux incidents

Un plan de réponse peut :

  • Exécuter des étapes d’investigation spécifiques
  • Utiliser des connecteurs et des outils particuliers
  • Fonctionner à un niveau d’autonomie défini (de « collecter des informations uniquement » à « prendre des mesures correctives »)
  • Nouvelle tentative d’investigation automatique (jusqu’à une limite configurable) avant de passer à un humain

Les plans de réponse transforment votre agent d’un assistant à usage général en un répondeur d’incident avec des procédures définies pour les types d’incidents connus.

Plan de réponse de démarrage rapide

Lorsque vous connectez une plateforme d’incidents, vous pouvez activer le plan de réponse de démarrage rapide pour créer automatiquement un plan de réponse par défaut. Ce plan vous permet de commencer immédiatement :

Plate-forme Descripteurs par défaut du plan Niveau d’autonomie
Azure Monitor. Alertes Sev0, Sev1, Sev2 Autonome
PagerDuty Incidents P1 Autonome

Azure Monitor prend en charge tous les niveaux de gravité (Sev0-Sev4). Le plan de démarrage rapide cible les alertes de priorité la plus élevée par défaut. Vous pouvez le personnaliser pour inclure des niveaux de gravité supplémentaires ou élaborer des plans spécifiques pour les alertes à priorité réduite.

Le plan de démarrage rapide crée un plan de réponse nommé quickstart_handler :

  • Correspond aux incidents par priorité ou gravité
  • Couvre tous les services impactés
  • S’exécute en mode entièrement autonome
  • Peut être personnalisé ou désactivé ultérieurement

Vous pouvez personnaliser ce plan par défaut ou créer des plans de réponse supplémentaires avec différents filtres et niveaux d’autonomie.

Suivre la valeur de l’incident

La section Surveiller → Métriques d’incident montre comment votre agent gère les incidents au fil du temps.

En savoir plus : Suivi de la valeur d’incident

Unité de mesure Ce qu’il montre
Incidents examinés Nombre total d’incidents que l’agent traite
Atténué par un agent Incidents résolus par l’agent de manière autonome
Assisté par un agent Incidents dans lesquels l’agent aide et l’utilisateur termine la résolution
Atténué par l’utilisateur Incidents résolus par l’utilisateur avec des informations fournies par l’agent
Action utilisateur en attente Incidents en attente d'intervention humaine

Utilisez ces métriques pour comprendre l’efficacité de votre agent et identifier les plans de réponse susceptibles de nécessiter un réglage.

Plateformes d’incident et connecteurs

Ces concepts fonctionnent ensemble :

Plateformes d’incident Connectors
Purpose D'où proviennent les alertes Les données et actions que l’agent peut UTILISER
Configuré dans Builder → Plateforme d’incidents Constructeur → Connecteurs
Direction Entrée (flux d’incidents vers l’agent) Sortant (l’agent contacte les systèmes)
Exemple PagerDuty envoie une alerte → agent examine L’agent interroge Kusto → trouve la cause racine

Votre agent utilise les deux concepts : la plateforme d'incidents déclenche l'enquête et les connecteurs fournissent les outils pour investiguer.

Ressource Pourquoi cela se produit-il
Tutoriel : Configurer des plans de réponse → Guide pas à pas pour créer votre premier plan de réponse
Plans de réponse aux incidents Comment les plans de réponse acheminent les incidents vers des agents personnalisés
Automatiser la réponse aux incidents Fonctionnalités d’automatisation des incidents de bout en bout
Suivre la valeur de l’incident Mesurer l’impact de la résolution des incidents de votre agent
Surveiller l’utilisation de l’agent Suivre l’utilisation, les insights de session et l’activité de l’agent
PagerDuty Configuration et fonctionnalités spécifiques à PagerDuty
ServiceNow Configuration et fonctionnalités propres à ServiceNow
Alertes Azure Monitor Alertes Azure Monitor, fusion d’alertes récurrentes et mappage de sévérité
Connecteurs → Comment les connecteurs fournissent des outils d’investigation