Azure SRE 에이전트에서 외부 데이터 관찰을 통한 진단

팁 (조언)

  • 단일 대화에서 플랫폼 간 수동 데이터 결합 작업에 소요되는 15~30분을 몇 분으로 줄입니다.
  • 한 번의 조사에서 인프라, 애플리케이션 및 비즈니스 메트릭의 상관 관계를 지정하여 불확실성을 제거합니다.
  • 사용자 지정 통합이 필요 없이 모든 관찰성 플랫폼을 MCP 서버와 동일한 방식으로 연결합니다.
  • 에이전트가 해당 도구를 자동으로 검색하므로 코드 변경 없이 새 플랫폼을 추가합니다.

문제: 플랫폼에 분산된 관찰성 데이터

애플리케이션은 Azure에서 실행되지만 관찰성 스택은 추적을 위한 Dynatrace, 인프라용 Azure Monitor, 로그용 Splunk, 비즈니스용 Kusto 메트릭을 비롯한 여러 플랫폼에 걸쳐 있습니다. 일부 인시던트는 데이터 사일로를 수동으로 연결해야 하며, 탭 간에 작업 ID를 복사하고 DQL·KQL·SPL 같은 쿼리 언어에서 타임스탬프의 상관 관계를 설정한 뒤 진단을 시작하기까지 데이터 연결에 15~30분이 소요됩니다.

에이전트가 이 문제를 해결하는 방법

MCP(모델 컨텍스트 프로토콜)를 사용하여 관찰성 도구를 연결할 수 있습니다. 에이전트는 모든 조사 중에 이러한 모든 도구(Azure 및 외부)를 쿼리합니다.

  1. Application Insights, Log Analytics, Azure Monitor, Resource Graph(기본 제공, 설치 필요 없음)를 포함한 Azure 서비스를 쿼리합니다.
  2. DQL, Datadog 메트릭, Splunk 이벤트(MCP 커넥터를 통해)를 통해 Dynatrace 로그를 비롯한 외부 도구를 쿼리합니다.
  3. Dynatrace의 오류 스파이크를 Azure의 배포 기록과 연결하는 플랫폼 간 신호를 상호 연결하고 타임스탬프와 자동으로 일치합니다.
  4. 연결된 모든 시스템의 증거가 포함된 조사 스레드를 포함한 통합 그림을 보고합니다.

주요 메커니즘: 에이전트는 연결된 모든 MCP 서버의 도구를 기본 제공 Azure 도구와 함께 등록합니다. 조사 중에는 조사 대상에 따라 올바른 도구를 선택하며, 도구가 어떤 플랫폼에서 왔는지는 고려하지 않습니다. 자세한 내용은 도구 선택을 참조하세요.

이 접근 방식이 다른 이유

에이전트는 한 번의 조사에서 모든 관찰 가능성 플랫폼을 쿼리하고, 신호를 자동으로 상호 연결하며, 플랫폼이 새로운 기능을 추가함에 따라 적응합니다.

별도의 대시보드와 달리 에이전트는 한 번의 조사에서 모든 관찰 가능성 플랫폼을 쿼리합니다. 탭을 전환하거나 쿼리 언어 간에 변환하지 않습니다. 에이전트는 Dynatrace용 DQL, Azure용 KQL 및 다른 도구가 노출하는 모든 것을 처리합니다.

수동 상관 관계와 달리 에이전트는 플랫폼 간에 신호를 자동으로 연결합니다. Dynatrace에서 5xx 오류가 급증하고 Azure에 최근 컨테이너 앱 배포가 표시되면 에이전트는 이러한 결과를 단일 근본 원인 분석으로 연결합니다.

지점 간 통합과 달리 MCP는 개방형 프로토콜입니다. Dynatrace, Datadog, New Relic 및 Splunk와 같은 서비스는 각각 에이전트가 동일한 방식으로 연결하는 MCP 서버를 게시합니다. 플랫폼이 MCP 서버에 새 기능을 추가하면 에이전트가 자동으로 검색합니다.

MCP 커넥터의 작동 방식, 사용자 지정 에이전트가 플랫폼별로 특수화되는 방법 및 기술 자료에서 사용자 지정 원격 분석에 대한 컨텍스트를 제공하는 방법을 알아봅니다.

이전 및 이후

다음 표에서는 외부 관찰 가능성 통합과 관계없이 인시던트 조사 워크플로를 비교합니다.

시나리오 이전 이후
조사 워크플로 Azure Monitor, Dynatrace 및 Splunk를 별도로 엽니다. 각각을 수동으로 쿼리해야 합니다. 에이전트에게 한 번 요청하면 연결된 모든 플랫폼을 쿼리합니다.
신호 상관 관계 도구 간에 오류 ID를 복사한 다음, 플랫폼 간에 수동으로 타임스탬프를 맞추십시오. 에이전트는 플랫폼 간에 스레드를 따르고 자동으로 상관 관계를 지정합니다.
컨텍스트 전환 3~5개의 대시보드, 서로 다른 쿼리 언어(KQL, DQL, SPL) 하나의 대화. 에이전트가 쿼리를 처리합니다.
첫 번째 인사이트까지 소요 시간 도구 간의 데이터 통합에 15–30분 소요 분. 당신의 에이전트 쿼리가 병렬로 실행됩니다.
사각지대 각 도구에는 자체 인프라 조각과 애플리케이션 및 비즈니스 메트릭이 표시됩니다. 에이전트가 연결된 모든 시스템에서 전체 그림을 확인합니다.

조사 예제: 플랫폼 간 상관 관계

다음 예제에서는 Azure 메트릭만으로 전체 스토리를 전달하지 않는 경우 에이전트가 플랫폼 간에 조사하는 방법을 보여 줍니다.

증상: "주문이 실패하지만 Azure 메트릭은 잘 보입니다."

에이전트는 여러 플랫폼에서 조사합니다.

  1. Azure 인프라 확인(기본 제공 도구)

    • App Service: 정상, 낮은 CPU
    • Azure SQL: 정상, 낮은 DTU
    • Application Insights: 앱 계층에서 예외 없음
  2. Dynatrace 쿼리 (MCP를 통해)

    • Dynatrace의 DQL 도구를 사용하여 서비스에서 5xx 오류를 조회하기
    • 결제 서비스 p99 대기 시간: 12초(일반: 200ms)
    • 오류 발생 범위가 최신 배포 버전으로 제한됩니다.
  3. Kusto 클러스터 쿼리 (Kusto를 통해)

    OrderEvents 
    | where Status == "Failed"
    | summarize count() by FailureReason
    
    • 결과: "PaymentGatewayTimeout"이 있는 847개 오류
  4. 상관된 결과: "Azure 인프라는 정상입니다. Dynatrace에 표시되는 5xx 오류 급증은 수정 버전 0000039 배포와 관련이 있습니다. Kusto 주문 데이터에서 847건의 PaymentGatewayTimeout 실패 사례가 영향을 입증합니다. 근본 원인: 잘못된 배포입니다."

외부 관찰성 없음: 조사는 1단계에서 중지됩니다 - "Azure는 이상 없음, 사건 종결." 에이전트는 MCP 커넥터를 사용하여 세 플랫폼에서 실제 근본 원인을 찾습니다.

연결할 수 있는 항목

다음 표에서는 지원되는 데이터 원본과 에이전트가 각각으로 수행할 수 있는 작업을 나열합니다.

데이터 원본 Connector 에이전트가 수행할 수 있는 작업
Azure Data Explorer(Kusto) Kusto 커넥터 비즈니스 메트릭 쿼리 및 사용자 지정 원격 분석
Dynatrace MCP 서버 DQL을 통해 로그 및 메트릭 쿼리, 오류 패턴 식별
Datadog MCP 서버 쿼리 메트릭, APM 추적, 로그 및 모니터
스플렁크 (주) MCP 서버 로그 검색, 저장된 검색 실행, 이벤트 쿼리
New Relic (뉴 렐릭) MCP 서버 쿼리 메트릭, 추적 및 애플리케이션 성능 데이터
Elasticsearch MCP 서버 Elasticsearch 인덱스 검색 및 쿼리
MCP를 사용하는 모든 도구 MCP 서버 플랫폼의 MCP 서버가 제공하는 모든 도구

시작하기

다음 표에서는 연결하려는 도구 유형에 따라 설정 가이드를 제공합니다.

연결하려는 항목 Connector 설치 가이드
Dynatrace, Datadog, Splunk, 사용자 지정 도구 MCP 서버 MCP 커넥터 자습서
Azure Data Explorer(Kusto) Kusto 커넥터 Kusto 커넥터 자습서
재사용 가능한 KQL 쿼리 Kusto 도구 Kusto 도구 만들기

각 방법을 사용하는 경우

다음 표에서는 관찰성 스택에 따라 올바른 방법을 선택하는 데 도움이 됩니다.

사용 중인 가시성 스택 권장 방법
Azure의 모든 원격 분석 서비스(App Insights, Log Analytics) Azure Observability 는 처음부터 작동합니다.
Azure + 외부 APM(Dynatrace, Datadog, New Relic) 각 플랫폼에 대한 Azure Observability(기본 제공) + MCP 커넥터
Azure + Kusto 사용자 정의 비즈니스 메트릭 Azure Observability + Kusto 커넥터
다중 플랫폼(Azure + Dynatrace + Splunk + Kusto) 모두. 에이전트가 한 번의 조사에서 모든 것을 쿼리합니다.

다음 단계: