Azure SRE 에이전트는 운영 작업을 안전하게 자동화하고 수고를 줄이므로 팀에서 인시던트 심사 및 수동 Runbook에 소요되는 시간을 줄이고 빌드하는 데 더 많은 시간을 할애합니다.
관찰성 도구, 인시던트 플랫폼 및 소스 코드 리포지토리를 단일 자동화된 워크플로에 연결합니다. 오전 3시에 문제가 발생하면 Grafana, PagerDuty, Slack을 오가며 확인하는 대신, 무엇이 변경되었는지, 무엇이 영향을 받았는지, 그리고 다음에 무엇을 해야 하는지에 대한 답이 이미 담긴 단일 조사 화면을 보게 됩니다.
에이전트가 변경 내용을 제안하고 팀이 승인합니다. 사용자 로그오프 없이는 변경 내용이 배포되지 않습니다.
에이전트가 실행하는 모든 조사는 20명으로 구성된 팀이든 시스템이 어떻게 작동하는지 아는 유일한 사람이든 간에 대화 전반에 걸쳐 지속되고 시간이 지남에 따라 축적되는 제도적 지식을 구축합니다.
SRE 에이전트 작동 중
Azure Monitor, PagerDuty 또는 연결된 모니터링 플랫폼에서 귀하의 결제 서비스에 대한 경고가 오전 2시 47분에 울리는 상황을 상상해 보세요.
몇 분 안에 SRE 에이전트:
- Application Insights를 쿼리하고 경고 40분 전에 시작된 메모리 추세를 식별합니다.
- 2시간 전에 GitHub 리포지토리의 배포 이벤트와 추세 상관 관계를 지정합니다.
- 특정 커밋을 식별하고 영향을 받는 Pod를 다시 시작하고 HPA(메모리 크기 조정 임계값)를 조정하는 두 가지 완화를 제안합니다.
- ServiceNow, PagerDuty 또는 사용자의 인시던트 채널에 전체 조사 요약이 미리 입력된 티켓을 생성합니다.
알림은 제안된 완화를 표시합니다. 당직 엔지니어는 요약을 검토한 뒤 런북 없이, 다른 작업으로 전환할 필요 없이 한 번의 조치로 승인합니다. 조사는 전쟁방이 없고 Grafana, PagerDuty 및 Slack 간에 탭 전환이 없는 단일 스레드에서 7분 안에 해결됩니다.
Azure 서비스 관리 기능
SRE 에이전트는 팀이 사용하는 Azure 서비스의 전체 범위를 관리할 수 있습니다.
컴퓨팅 서비스: 가상 머신, App Service, Container Apps, AKS(Azure Kubernetes Service), Azure Functions 등
스토리지 서비스: Blob Storage, 파일 공유, 관리 디스크 및 스토리지 계정.
네트워킹 서비스: 가상 네트워크, 부하 분산 장치, 애플리케이션 게이트웨이 및 네트워크 보안 그룹.
데이터베이스 서비스: Azure SQL Database, Cosmos DB, PostgreSQL, MySQL 및 Redis.
모니터링 및 관리: Azure Monitor, Log Analytics, Application Insights 및 Resource Manager.
Runbook, subagent 및 에이전트 후크를 사용하여 SRE 에이전트를 통해 모든 Azure CLI 작업을 자동화할 수 있습니다.
기본 사용 사례
인시던트 자동화: 경고가 발생하면 에이전트는 모니터링 도구를 쿼리하고, 시스템 간 신호를 상호 연결하고, 가능한 근본 원인을 식별하고, 완화를 제안합니다. 이 프로세스는 MTTR(평균 복구 시간)을 줄이고, 서비스 가용성을 개선하며, 인시던트가 되기 전에 실패 패턴을 catch합니다.
예약된 워크플로 자동화: 정의된 일정에 따라 사전 상태 검사, 규정 준수 스윕 및 일상적인 운영 작업을 실행합니다. 연결된 인시던트 플랫폼 또는 알림 채널의 결과가 표시됩니다.
조사 및 조언: "지난 1시간 동안 무엇이 변경되었나요?" 또는 "왜 이 서비스가 저하되었나요?"와 같은 환경에 대한 자연어 질문을 하고 원본 인용을 통해 근거 있는 답변을 얻습니다.
SRE 에이전트는 어떻게 작동하나요?
SRE 에이전트는 미세 조정된 Azure 전문 지식과 전체 사용자 지정 기능을 결합합니다. 기본적으로 일반적인 운영 작업에 대한 지능형 기본값을 사용하여 Azure 리소스를 이해하고 관리합니다.
에이전트는 5개의 확장 기본 형식을 통해 작동합니다.
기술: 사용자 지정 코드 없이 에이전트의 운영 범위를 확장하는 마켓플레이스 Runbook 및 Azure CLI 스크립트를 비롯한 개별 기능
하위 에이전트: 특정 운영 영역에 맞게 설계된 에이전트입니다. 아키텍처, 로그 및 메트릭, 소스 코드, 근본 원인 분석, 스캐닝의 5가지 서브에이전트가 기본으로 제공되며, 추가적인 사용자 지정 서브에이전트를 구축하거나 여러 도메인에 걸친 조사를 위해 조합할 수 있습니다.
Python 도구: 구성이 아닌 코드가 필요한 시나리오에 대한 사용자 지정 논리, 데이터 변환 및 API 통합
MCP 서버: 모델 컨텍스트 프로토콜 표준을 통해 40개 이상의 미리 빌드된 커넥터(Datadog, Prometheus, Grafana, New Relic, Splunk, Elasticsearch, Dynatrace, AWS CloudWatch, GCP Stackdriver 등) 또는 사용자 지정 도구에 연결합니다.
에이전트 후크: 조사 전이나 해결 후 에이전트 수명 주기의 정의된 지점에서 실행되는 이벤트 트리거 자동화입니다. 두 실행기 유형이 지원됩니다. 명령 후크는 결정적 CLI 작업을 실행하고 프롬프트 후크는 LLM 평가 구조적 JSON 출력을 생성합니다. 후크를 사용하여 정책을 적용하거나, 원격 분석을 내보내거나, 외부 승인 워크플로와 통합합니다. 에이전트 후크를 참조하세요.
권한 게이트: 실행 전에 제안된 모든 도구 호출을 평가하는 사전 실행 안전 계층입니다. 운영자는 사용자 승인을 요구하거나, 정책 규칙을 적용하거나, 허용되지 않는 작업을 차단하여 완전히 자동화된 워크플로 중에도 팀이 계속 제어할 수 있도록 할 수 있습니다. 규정 준수 가시성을 위해 감사 원격 분석이 자체 Application Insights 인스턴스로 라우팅됩니다.
프리미티브 전체 분류 체계(RBAC 범위 지정, 비용 귀속, 감사 추적 패턴 포함)에 대해서는 하위 에이전트 및 확장성과 에이전트 후크를 참조하세요.
결코 떠나지 않는 지식
모든 조사는 에이전트에게 새로운 것을 가르치고, 그 지식은 당신이하지 않을 때에도 유지됩니다. 근본 원인, 해결 단계, 기본 설정 및 운영 패턴을 캡처합니다. 시스템이 어떻게 작동하는지 아는 유일한 사람이라면 더 이상 단일 실패 지점이 아닙니다. 팀 측면에서는 신규 구성원이 더 빠르게 업무에 적응하고, 누가 호출(on-call 대상)이 되더라도 대응 품질은 일관되게 유지되며, 팀 전체의 전문성이 자연스럽게 향상됩니다
Tip
팀 예제: 새로운 엔지니어가 온-콜에 참여합니다. 에이전트는 배포 패턴, 과거 인시던트 및 팀 절차를 이미 알고 있으므로 첫날부터 일관된 품질을 제공합니다.
솔로 예제: 당신은 휴가에 간다. 에이전트가 운영 맥락을 함께 지니고 있어, 누가 대신 맡더라도 처음부터 다시 시작하지 않아도 됩니다.
Integrations
Azure SRE 에이전트는 다음과 같은 방법으로 운영 에코시스템과 통합됩니다.
모니터링 및 관찰 가능성:
- Azure Monitor(메트릭, 로그, 경고, 워크북)
- Application Insights (애플리케이션 인사이트)
- Log Analytics
- 그라파나 주
인시던트 관리:
- Azure Monitor 경고
- PagerDuty (페이지듀티)
- ServiceNow
소스 제어 및 CI/CD:
- GitHub(리포지토리, 문제)
- Azure DevOps(리포지토리, 작업 항목)
데이터 원본:
- Azure Data Explorer(Kusto) 클러스터
- MCP(모델 컨텍스트 프로토콜) 서버
통신 및 알림:
- Slack
- Microsoft 팀
시작하기
작업을 예약하거나, 인시던트를 처리하거나, 사용자 지정 에이전트를 빌드하여 Azure SRE 에이전트 작업을 시작합니다.
예약된 작업을 사용하여 인프라 코드를 작성하지 않고 일상적인 작업 작업(상태 검사, 정리 및 규정 준수 스윕)을 자동화합니다.
작업 예약 탭을 선택합니다.
작업 세부 정보를 입력합니다.
작업을 실행할 일정을 정의합니다.
작업에 대한 사용자 지정 에이전트 지침을 작성합니다.
예약된 작업 만들기를 선택합니다.
연결된 인시던트 플랫폼 또는 알림 채널의 예약된 작업 화면의 결과입니다.
시간 경과에 따른 값
SRE 에이전트는 사용자 환경, 패턴 및 운영 기록을 학습할 때 점진적 가치를 제공합니다.
| 마일스톤 | 어떻게 되나요? |
|---|---|
| 1일차 | 도구를 연결하고, 첫 번째 인시던트 심사를 수행하고, 기본 제공 Azure 지식에서 즉각적인 진단 값을 가져옵니다. |
| 1주차 | 에이전트는 환경 토폴로지, 일반적인 실패 패턴 및 에스컬레이션 기본 설정을 알아봅니다. 조사는 더 빠르고 정확해집니다. |
| 1개월 | 기관 지식이 축적된다. 팀은 문제가 커지기 전에 장애 패턴을 포착했다고 보고합니다. 새로운 팀 구성원은 기존 팀원에 대한 지식이 없어도 첫 당직 근무부터 업무에 참여할 수 있습니다. |
Azure SRE 에이전트를 사용하는 조직은 초기 파일럿의 복구 및 운영 오버헤드에 대한 평균 시간 감소가 크게 감소하고 있다고 보고합니다.
귀사에 적합한지 평가해 보세요
팀을 평가하든 또는 단독으로 작업을 실행하든, 이전 섹션의 점진적 값 테이블로 시작합니다. 그런 다음, 다음을 살펴보세요:
| Resource | 찾은 내용 |
|---|---|
| 가격 책정 및 청구 | 사용량 기반 가격 책정, 무료 계층 자격 및 용량 계획 |
| 보안 개요 | 데이터 처리, 개인 정보 보호, 네트워크 통합 |
| 만들기 및 설정 | 체계적인 파일럿을 운영하는 방법 |
| 팀 설정 및 역할 | 관리자 및 표준 사용자 역할, 단계별 롤아웃 가이드 |
Considerations
Azure SRE 에이전트를 사용할 때는 다음 사항을 고려해야 합니다.
- 영어는 채팅 인터페이스에서 유일하게 지원되는 언어입니다.
- Azure SRE 에이전트가 데이터를 관리하는 방법에 대한 자세한 내용은 Microsoft 개인 정보 취급 방침을 참조하세요.
- 가용성은 지역 및 테넌트 구성에 따라 다릅니다.
- 비용은 사용량 기준입니다. 현재 요금 모델 및 무료 계층 세부 정보는 가격 책정 및 청구 를 참조하세요.
- AI 시스템과 마찬가지로 SRE 에이전트는 때때로 잘못된 결론을 도출하거나 사용자 환경에 적용되지 않는 완화를 제안할 수 있습니다. 승인하기 전에 항상 제안된 작업을 검토합니다.
에이전트를 만들 때 다음 리소스도 자동으로 만들어집니다.
- Azure 애플리케이션 Insights
- Log Analytics 작업 영역
- 관리되는 식별
이러한 리소스는 에이전트 관찰 가능성 및 ID 관리를 지원합니다. Azure 구독에서 보고 관리할 수 있습니다.