Azure SRE 에이전트에서 인시던트 대응 자동화

당신이 잠을 자는 동안 에이전트가 인시던트를 모니터링하고 조사하며 해결합니다. 시간이 지남에 따라 더 똑똑해지도록 모든 수정 사항에서 학습합니다. 오전 3시에 컨텍스트 전환을 중지합니다.

팁 (조언)

  • 에이전트는 사건을 인지하고 몇 초 내에 조사를 시작합니다.
  • 로그, 메트릭, 배포 및 과거 인시던트 상관 관계를 자동으로 지정합니다.
  • 실행 모드에 따라 수정을 제안하거나 자율적으로 해결합니다.
  • 메모리에 캡처된 지식은 향후 인시던트 처리를 향상시킵니다.
  • 딥 링크를 통해 팀 동료와 조사 스레드를 공유합니다.

문제: 오전 3시, 탭 5개, 고갈된 엔지니어 1명

오전 3시에 경고가 발생하면 단순히 깨어나는 것이 아니라 상황을 전환하게 됩니다. PagerDuty를 열어 무엇이 잘못되었는지 확인하고, 메트릭에 대한 Grafana, 오류에 대한 Log Analytics를 연 다음, Slack을 열어 다른 사람이 아무것도 알고 있는지, 6개월 전에 마지막으로 업데이트된 Runbook을 확인합니다.

그러는 사이 MTTR(평균 해결 시간)이 지연됩니다. 이 문제를 해결하는 방법에 관한 지식은 과거의 인시던트에 있거나, 팀원의 머릿속에 있거나, 아무도 읽지 않는 런북에 있습니다. 그러나 오전 3시에는 찾을 수 없습니다.

에이전트가 이 문제를 해결하는 방법

에이전트는 인시던트가 발생할 때 몇 초 내에 작업을 시작합니다.

인시던트 응답 흐름을 보여 주는 다이어그램: 경고 발생, 에이전트 승인, 컨텍스트 수집, 가설 형성, 유효성 검사 및 해결 또는 에스컬레이션.

에이전트는 다음 단계를 수행합니다.

  1. 인시던트 플랫폼(PagerDuty, ServiceNow 또는 Azure Monitor)에서 경고를 승인합니다.
  2. 가시성 도구 쿼리 - Azure Monitor와 Application Insights는 물론, MCP를 통해 Kusto나 Microsoft 외 도구처럼 연결된 모든 소스 도 함께 포함됩니다.
  3. 배포 기록과 상관 관계가 있으려면 소스 제어를 연결하거나 배포를 인식하는 사용자 지정 에이전트를 빌드해야 합니다.
  4. 메모리에서 비슷한 문제가 있는지 확인 합니다. "3주 전에 이 정확한 오류를 확인했습니다. 해결된 내용은 다음과 같습니다."
  5. 무엇이 잘못되었는지에 대한 가설을 작성하고 증거와 함께 각각의 유효성을 검사합니다.
  6. 실행 모드에 따라 수정을 제안하거나 자율적으로 해결합니다.

잠에서 깨어날 때까지 사고가 완전한 추론 과정과 함께 해결되거나, 귀하의 승인을 기다리는 명확한 권장 사항이 주어집니다.

이 접근 방식이 다른 이유

에이전트는 몇 가지 주요 방법으로 기존 접근 방식을 개선합니다.

Runbook과 달리 에이전트는 모든 인시던트에서 학습합니다. 수정이 작동하면 기억합니다. 기술 자료에 런북을 추가하면 에이전트가 이를 자동으로 참조합니다. Runbook이 부실해지면, 에이전트의 메모리는 더욱 스마트해집니다.

스크립트와 달리 에이전트는 적응합니다. 스크립트는 컨텍스트에 관계없이 동일한 단계를 실행합니다. 에이전트 는 특정 상황을 분석하고 모든 연결된 소스의 증거를 상호 연관시켜 무엇이 잘못되었는지를 파악하기 위해 노력하고 있습니다.

대시보드와 달리 에이전트는 행동합니다. 대시보드는 사용자가 해석할 수 있도록 데이터를 표시합니다. 에이전트는 데이터를 해석하고 가설을 구성하며 솔루션을 제안합니다. 이 작업이 완료되면 원시 메트릭이 아닌 결론을 검토합니다.

이전 및 이후

다음 표에서는 수동 인시던트 대응과 에이전트 지원 인시던트 대응을 비교합니다.

영역 이전 이후
승인 인간이 깨어날 때까지 기다립니다. 에이전트가 즉시 승인
열린 도구 5개 이상의 탭 0(에이전트가 처리)
조사 도구 간 수동 상관 관계 에이전트는 모든 원본을 자동으로 쿼리합니다.
캡처된 지식 엔지니어의 머리 속에서 메모리에 저장
수면 중단 No
결과 공유 탐색 경로 스크린샷 또는 설명 스레드 링크 복사, Teams에 붙여넣기

조사 스레드 공유

활성 인시던트 중에는 에이전트가 찾은 내용에 맞게 팀이 정렬되어야 합니다. 모든 조사 스레드에는 공유 가능한 딥 링크를 생성하는 스레드에 대한 링크 복사 옵션이 있습니다. Teams 또는 Slack에 붙여넣습니다.

스레드 링크를 복사하려면 다음을 수행합니다.

  1. 인시던트 조사 토론을 여세요.
  2. 스레드 제목 옆에 있는 (추가 옵션) 단추를 선택합니다.
  3. 스레드에 대한 링크 복사를 선택합니다.

복사된 URL은 모든 액세스 방법에서 작동합니다. 에이전트에 접근할 수 있는 수신자는 링크를 선택하여 직접 조사 스레드로 연결됩니다.

스레드 링크를 공유하는 경우:

  • 인시던트 브리지 중에 에이전트의 근본 원인 분석을 팀과 공유합니다.
  • 인시던트 이후 검토 단계에서 조사 스레드에 증거를 직접 연결합니다.
  • 두 번째 의견을 위해 팀 동료에게 특정 결과를 보냅니다.

시작하기

Resource 학습할 내용
인시던트 대응 자동화 인시던트 플랫폼을 연결하고, 대응 계획을 만들고, 에이전트가 실제 인시던트를 처리하는지 감시합니다.

다음 단계: