당신이 잠을 자는 동안 에이전트가 인시던트를 모니터링하고 조사하며 해결합니다. 시간이 지남에 따라 더 똑똑해지도록 모든 수정 사항에서 학습합니다. 오전 3시에 컨텍스트 전환을 중지합니다.
팁 (조언)
문제: 오전 3시, 탭 5개, 고갈된 엔지니어 1명
오전 3시에 경고가 발생하면 단순히 깨어나는 것이 아니라 상황을 전환하게 됩니다. PagerDuty를 열어 무엇이 잘못되었는지 확인하고, 메트릭에 대한 Grafana, 오류에 대한 Log Analytics를 연 다음, Slack을 열어 다른 사람이 아무것도 알고 있는지, 6개월 전에 마지막으로 업데이트된 Runbook을 확인합니다.
그러는 사이 MTTR(평균 해결 시간)이 지연됩니다. 이 문제를 해결하는 방법에 관한 지식은 과거의 인시던트에 있거나, 팀원의 머릿속에 있거나, 아무도 읽지 않는 런북에 있습니다. 그러나 오전 3시에는 찾을 수 없습니다.
에이전트가 이 문제를 해결하는 방법
에이전트는 인시던트가 발생할 때 몇 초 내에 작업을 시작합니다.
에이전트는 다음 단계를 수행합니다.
- 인시던트 플랫폼(PagerDuty, ServiceNow 또는 Azure Monitor)에서 경고를 승인합니다.
- 가시성 도구 쿼리 - Azure Monitor와 Application Insights는 물론, MCP를 통해 Kusto나 Microsoft 외 도구처럼 연결된 모든 소스 도 함께 포함됩니다.
- 배포 기록과 상관 관계가 있으려면 소스 제어를 연결하거나 배포를 인식하는 사용자 지정 에이전트를 빌드해야 합니다.
- 메모리에서 비슷한 문제가 있는지 확인 합니다. "3주 전에 이 정확한 오류를 확인했습니다. 해결된 내용은 다음과 같습니다."
- 무엇이 잘못되었는지에 대한 가설을 작성하고 증거와 함께 각각의 유효성을 검사합니다.
- 실행 모드에 따라 수정을 제안하거나 자율적으로 해결합니다.
잠에서 깨어날 때까지 사고가 완전한 추론 과정과 함께 해결되거나, 귀하의 승인을 기다리는 명확한 권장 사항이 주어집니다.
이 접근 방식이 다른 이유
에이전트는 몇 가지 주요 방법으로 기존 접근 방식을 개선합니다.
Runbook과 달리 에이전트는 모든 인시던트에서 학습합니다. 수정이 작동하면 기억합니다. 기술 자료에 런북을 추가하면 에이전트가 이를 자동으로 참조합니다. Runbook이 부실해지면, 에이전트의 메모리는 더욱 스마트해집니다.
스크립트와 달리 에이전트는 적응합니다. 스크립트는 컨텍스트에 관계없이 동일한 단계를 실행합니다. 에이전트 는 특정 상황을 분석하고 모든 연결된 소스의 증거를 상호 연관시켜 무엇이 잘못되었는지를 파악하기 위해 노력하고 있습니다.
대시보드와 달리 에이전트는 행동합니다. 대시보드는 사용자가 해석할 수 있도록 데이터를 표시합니다. 에이전트는 데이터를 해석하고 가설을 구성하며 솔루션을 제안합니다. 이 작업이 완료되면 원시 메트릭이 아닌 결론을 검토합니다.
이전 및 이후
다음 표에서는 수동 인시던트 대응과 에이전트 지원 인시던트 대응을 비교합니다.
| 영역 | 이전 | 이후 |
|---|---|---|
| 승인 | 인간이 깨어날 때까지 기다립니다. | 에이전트가 즉시 승인 |
| 열린 도구 | 5개 이상의 탭 | 0(에이전트가 처리) |
| 조사 | 도구 간 수동 상관 관계 | 에이전트는 모든 원본을 자동으로 쿼리합니다. |
| 캡처된 지식 | 엔지니어의 머리 속에서 | 메모리에 저장 |
| 수면 중단 | 예 | No |
| 결과 공유 | 탐색 경로 스크린샷 또는 설명 | 스레드 링크 복사, Teams에 붙여넣기 |
조사 스레드 공유
활성 인시던트 중에는 에이전트가 찾은 내용에 맞게 팀이 정렬되어야 합니다. 모든 조사 스레드에는 공유 가능한 딥 링크를 생성하는 스레드에 대한 링크 복사 옵션이 있습니다. Teams 또는 Slack에 붙여넣습니다.
스레드 링크를 복사하려면 다음을 수행합니다.
- 인시던트 조사 토론을 여세요.
- 스레드 제목 옆에 있는 ⋯ (추가 옵션) 단추를 선택합니다.
- 스레드에 대한 링크 복사를 선택합니다.
복사된 URL은 모든 액세스 방법에서 작동합니다. 에이전트에 접근할 수 있는 수신자는 링크를 선택하여 직접 조사 스레드로 연결됩니다.
스레드 링크를 공유하는 경우:
- 인시던트 브리지 중에 에이전트의 근본 원인 분석을 팀과 공유합니다.
- 인시던트 이후 검토 단계에서 조사 스레드에 증거를 직접 연결합니다.
- 두 번째 의견을 위해 팀 동료에게 특정 결과를 보냅니다.
시작하기
| Resource | 학습할 내용 |
|---|---|
| 인시던트 대응 자동화 | 인시던트 플랫폼을 연결하고, 대응 계획을 만들고, 에이전트가 실제 인시던트를 처리하는지 감시합니다. |
다음 단계:
관련 콘텐츠
- 인시던트 대응 계획 - 필터, 심각도 라우팅 및 인프라를 코드로 사용하여 에이전트가 처리하는 인시던트를 제어합니다.
- 심층 조사 - 복잡한 인시던트에 대한 확장된 가설 기반 분석입니다.
- 근본 원인 분석 - 가설 기반 조사.
- Azure 관측 가능성 도구를 사용한 진단 - 기본 제공 Azure 진단 도구.
- 실행 모드 - 제어 에이전트 자율성 수준입니다.