프로덕션 중인 모델에서 데이터 수집

적용 대상:Azure CLI ml 확장 v2(현재)Python SDK azure-ai-ml v2(현재)

이 문서에서는 Azure Machine Learning 온라인 엔드포인트에 배포된 모델에서 데이터 수집에 대해 알아봅니다.

Azure Machine Learning 데이터 수집기 관리형 온라인 엔드포인트 또는 Kubernetes 온라인 엔드포인트에 배포된 모델의 입력 및 출력 데이터에 대한 실시간 로깅을 제공합니다. Azure Machine Learning 기록된 유추 데이터를 Azure Blob Storage에 저장합니다. 그런 다음 이 데이터를 모델 모니터링, 디버깅 또는 감사에 원활하게 사용할 수 있으므로 배포된 모델의 성능을 관찰할 수 있습니다.

데이터 수집기는 다음을 제공합니다.

  • 중앙 위치에 유추 데이터 로깅(Azure Blob Storage)
  • 관리되는 온라인 엔드포인트 및 Kubernetes 온라인 엔드포인트 지원
  • 배포 수준에서 정의하여 구성을 최대한 변경할 수 있습니다.
  • 페이로드 및 사용자 지정 로깅 모두 지원

로깅 모드

데이터 수집기는 페이로드 로깅사용자 지정 로깅이라는 두 가지 로깅 모드를 제공합니다. 페이로드 로깅을 사용하면 배포된 모델에서 HTTP 요청 및 응답 페이로드 데이터를 수집할 수 있습니다. 사용자 지정 로깅을 사용하면 Azure Machine Learning 점수 매기기 스크립트에서 직접 pandas DataFrames를 로깅하기 위한 Python SDK를 제공합니다. SDK에 Python 사용자 지정 로깅을 사용하여 데이터 변환(또는 전처리) 전, 도중 및 후에 데이터 외에도 모델 입력 및 출력 데이터를 기록할 수 있습니다.

데이터 수집기 구성

데이터 수집기는 배포 수준에서 구성할 수 있으며 구성은 배포 시 지정됩니다. 수집된 데이터를 받을 Azure Blob Storage 대상을 구성할 수 있습니다. 수집할 데이터의 샘플링 속도(0~100% 범위)를 구성할 수도 있습니다.

제한 사항

데이터 수집기에는 다음과 같은 제한 사항이 있습니다.

  • 데이터 수집기는 온라인(또는 실시간) Azure Machine Learning 엔드포인트(관리형 또는 Kubernetes)에 대한 로깅만 지원합니다.
  • 데이터 수집기 Python SDK는 pandas DataFrames를 통해 테이블 형식 데이터 로깅만 지원합니다.

자주 묻는 질문(FAQ)

배포 후 유추 데이터 수집

초기 요청에 대해 요청 및 응답 로그가 누락되거나 일치하지 않는 이유는 무엇인가요? 유추 데이터 수집은 트래픽이 처음 도착할 때 초기화됩니다. 배포 후 이 간단한 준비 기간 동안 초기 요청 또는 응답은 독립적으로 기록될 수 있습니다. 이 동작은 예상되며 일시적입니다.

이는 데이터 손실 또는 실패를 나타내나요? 아니요. 이는 의도적으로 수행되며 데이터 수집 메트릭에 오류가 표시되지 않는 경우 오류를 나타내지 않습니다.

원격 분석의 유효성을 검사할 때 이를 방지하려면 어떻게 해야 하나요? 몇 가지 예열 유추 요청을 보내거나, 배포 후 잠시 기다린 다음 유효성 검사 또는 스모크 테스트를 실행합니다.