AKS(Azure Kubernetes Service) 대한 GPU 관찰성 모범 사례

이 문서에서는 AKS(Azure Kubernetes Service) GPU 신호를 모니터링하고 해석하는 모범 사례를 제공합니다. NVIDIA GPU 메트릭을 격리된 상태로 보는 대신 사용률, 메모리 및 워크로드 컨텍스트 간에 신호를 상호 연결하여 장기적인 성능 및 노드 효율성을 개선합니다.

Important

AKS 미리 보기 기능은 셀프 서비스에서 사용할 수 있습니다(옵트인 방식). 미리 보기는 "있는 그대로" 및 "사용 가능한 상태로" 제공되며 서비스 수준 계약 및 제한적 보증에서 제외됩니다. AKS 미리 보기의 일부는 고객 지원팀에서 최선을 다해 지원합니다. 따라서 이러한 기능은 프로덕션 용도로 사용할 수 없습니다. 자세한 내용은 다음 지원 문서를 참조하세요.

GPU 활용도와 포화 상태 이해

NVIDIA DCGM 메트릭 DCGM_FI_DEV_GPU_UTIL 을 직접 효율성 점수로 처리하지 마세요. DCGM_FI_DEV_GPU_UTIL 커널이 활성 상태인 빈도만 나타내므로 워크로드가 컴퓨팅 효율적인지 여부를 알 수 없습니다. 사용률 신호를 독립적으로 읽는 대신 상관 관계를 지정하여 보다 정확한 지침을 얻을 수 있습니다. DCGM_FI_DEV_GPU_UTIL와 비교 DCGM_FI_PROF_SM_ACTIVEDCGM_FI_PROF_SM_ACTIVEDCGM_FI_PROF_DRAM_ACTIVE 한 다음 병목 상태가 컴퓨팅, 메모리 또는 시작 및 동기화 오버헤드인지 여부를 식별합니다.

높은 DCGM_FI_DEV_GPU_UTIL과 낮은 DCGM_FI_PROF_SM_ACTIVE는 종종 실행 오버헤드, 동기화 지연 또는 메모리 경합을 의미합니다. 높음 DCGM_FI_PROF_SM_ACTIVE 와 낮음 DCGM_FI_PROF_DRAM_ACTIVE 은 계산 집약적 동작과 더 일치합니다. 일반적으로 더 DCGM_FI_PROF_DRAM_ACTIVE 낮은 DCGM_FI_PROF_SM_ACTIVE 값은 메모리 바인딩된 실행을 가리킵니다.

메모

DCGM_FI_PROF_SM_ACTIVE 및 DCGM_FI_PROF_DRAM_ACTIVE DCGM 프로파일링 필드이며 Azure VM(Virtual Machine) 크기에서 제공되는 모든 NVIDIA GPU 아키텍처 유형에는 기본적으로 표시되지 않을 수 있습니다.

이 상관 관계 우선 접근 방식은 루트 문제가 커널 효율성 또는 메모리 액세스 패턴일 수 있는 경우 스케일 아웃을 방지하는 데 도움이 됩니다. 자세한 메트릭 의미 체계는 NVIDIA DCGM 사용자 가이드를 참조하세요.

메모리 압력을 기본 일정 신호로 사용

메모리가 메모리 부족 임계값에 반복적으로 접근하는 경우 해당 패턴을 불안정성의 초기 지표로 처리합니다. Kubernetes에는 GPU 메모리 압력에 대한 기본 신호가 없기 때문에 VRAM 부족은 일반적으로 컨테이너 OOM 종료와 파드 장애로만 나타나며, 이는 DCGM 원격 분석에서 추세가 감지된 이후에야 발생하는 경우가 많습니다.

GPU 상태 신호에서 노드 수명 주기 작업 자동화

이 방법은 호스트 에이징이 노드마다 다를 수 있는 수명이 긴 AKS GPU 노드 풀에 특히 중요합니다.

스케일링 결정에 따라 가시성 신호를 일치시킵니다.

수직 크기 조정의 경우 다른 Azure GPU 지원 VM SKU에 새 노드 풀을 만들고 전원 또는 열 제약 조건이 처리량을 제한할 때 워크로드를 마이그레이션합니다.예를 들어 DCGM_FI_DEV_POWER_USAGE 제한에 가깝게 유지되는 반면 DCGM_FI_PROF_SM_ACTIVE 수요에도 불구하고 평평하게 유지됩니다.

별도의 MIG 및 비 MIG 관찰 정책

MIG를 사용하도록 설정하면 각 메트릭의 범위가 이동하므로 신호를 다르게 해석합니다.

비용을 고려한 GPU 효율성 메트릭 게시

성능뿐만 아니라 비용 가시성을 최적화합니다. AKS 플랫폼 팀의 고가치 파생 메트릭은 사용된 GPU 초와 할당된 GPU 초의 비교입니다. DCGM 원격 분석 및 Kubernetes 컨텍스트 조인을 사용하여 네임스페이스 및 워크로드 클래스별로 이 메트릭을 게시한 다음, 시간이 지남에 따라 플랫폼 및 재무 팀을 위한 공유 KPI로 검토합니다. 이 방법은 최적화 결정에 대한 일반적인 진리 소스를 정의하고 집계 사용률 평균에 의해 과잉 할당이 숨겨지는 것을 방지하는 데 도움이 됩니다.

다음 단계

AKS에 대한 GPU 모범 사례를 검토합니다.
AKS에서 관리되는 GPU 관찰 기능을 시작하기.
다중 인스턴스 GPU(MIG) 노드를 사용하여 할당을 최적화합니다.
KEDA 및 DCGM 메트릭을 사용하여 GPU 신호를 기반으로 확장합니다.

피드백

이 페이지가 도움이 되었나요?

Last updated on 2026-05-07