기본 제공 계산기 참조

Important

이 문서에서 표시된 항목(미리 보기)은 현재 공개 미리 보기로 제공됩니다. 이 미리 보기는 서비스 수준 계약 없이 제공되며 프로덕션 워크로드에는 권장되지 않습니다. 특정 기능이 지원되지 않거나 기능이 제한될 수 있습니다. 자세한 내용은 Microsoft Azure 미리 보기에 대한 사용 약관 참조하세요.

Microsoft Foundry에는 개발 수명 주기 내내 AI 응답의 품질, 안전성 및 안정성을 평가하는 기본 제공 평가자가 포함되어 있습니다. 이 참조는 사용 가능한 모든 평가자, 해당 목적 및 사용 사례에 적합한 평가자를 선택하는 방법에 대한 지침을 나열합니다. 특정 평가 기준에 맞게 조정된 사용자 지정 평가자를 만들 수도 있습니다.

범용 평가자

Evaluator Purpose
Coherence 논리적 일관성 및 응답 흐름을 측정합니다.
Fluency 자연어 품질 및 가독성을 측정합니다.

자세한 내용은 범용 평가자를 참조하세요.

텍스트 유사성 계산기

Evaluator Purpose
Similarity AI 지원 텍스트 유사성 측정.
F1 Score 토큰의 정밀도와 재현율의 조화 평균은 응답과 지상 진리 간에 겹칩니다.
BLEU 번역 품질 측정값에 대한 이중 언어 평가 언더스터디 점수는 응답과 지상 진리 사이에 n-gram으로 겹칩니다.
GLEU 문장 수준 평가의 Google-BLEU 변형은 응답과 근거 진실(ground truth) 사이에 n그램 수치가 겹칩니다.
ROUGE Recall-Oriented 기스팅 평가 측정 지표는 응답과 실제 진실 사이에 n그램 단위로 겹칩니다.
METEOR 명시적 순서 측정값을 사용한 번역 평가 메트릭은 응답과 지상 진리 사이에 n-gram으로 겹칩니다.

자세한 내용은 텍스트 유사성 계산기를 참조하세요.

RAG evaluators

Evaluator Purpose
Retrieval 시스템이 관련 정보를 얼마나 효과적으로 검색하는지 측정합니다.
Document Retrieval 근거에 따라 검색 결과의 정확도를 측정합니다.
Groundedness 검색된 컨텍스트에서 응답이 접지되는 방식을 측정합니다. 모델 기반 판단을 사용하여 1-5의 점수를 반환합니다.
Groundedness Pro(미리 보기) Azure AI 콘텐츠 보안 서비스를 사용하여 검색된 컨텍스트에서 응답이 접지되는지 여부를 측정합니다. 모델 배포를 요구하지 않고 이진 패스/실패를 반환합니다.
Relevance 쿼리와 관련하여 응답이 얼마나 관련성이 있는지 측정합니다.
응답 완성도(미리 보기) 지상 진실과 관련하여 응답이 완료되는 정도를 측정합니다(중요한 정보가 누락되지 않음).

자세한 내용은 RAG(검색 보강 세대) 평가기를 참조하세요.

위험 및 안전 평가자

Evaluator Purpose
증오와 불공정 편견, 차별 또는 증오 콘텐츠를 식별합니다.
Sexual 부적절한 성적 콘텐츠를 식별합니다.
Violence 폭력적인 콘텐츠 또는 선동을 감지합니다.
Self-Harm 자해를 홍보하거나 설명하는 콘텐츠를 검색합니다.
Protected Materials 저작권이 있거나 보호된 콘텐츠의 무단 사용을 검색합니다.
간접 공격(XPIA) 검색된 컨텍스트를 통해 삽입된 간접 탈옥 시도에 대한 응답이 떨어졌는지 여부를 측정합니다.
Code Vulnerability 생성된 코드의 보안 문제를 식별합니다.
Ungrounded Attributes 사용자 상호 작용에서 유추된 조작되거나 환각된 정보를 검색합니다.
금지된 작업(미리 보기) 명시적으로 허용되지 않는 작업을 위반하는 동작에 참여하는 AI 에이전트의 기능을 측정합니다.
중요한 데이터 누출(미리 보기) 중요한 정보를 노출하는 AI 에이전트의 취약성을 측정합니다.

자세한 내용은 위험 및 안전 평가자를 참조하세요.

Agent evaluators

Evaluator Purpose
작업 준수(미리 보기) 에이전트가 시스템 지침에 따라 식별된 작업을 수행하는지 여부를 측정합니다.
작업 완료(미리 보기) 에이전트가 요청된 작업을 엔드 투 엔드(end-to-end)로 성공적으로 완료했는지 여부를 측정합니다.
의도 확인(미리 보기) 에이전트가 사용자 의도를 식별하고 해결하는 방법을 정확하게 측정합니다.
작업 탐색 효율성 에이전트의 단계 시퀀스가 효율성을 측정하기 위한 최적 경로 또는 예상 경로와 일치하는지 여부를 결정합니다.
도구 호출 정확도 선택, 매개 변수 정확성 및 효율성을 포함하여 도구 호출의 전반적인 품질을 측정합니다.
Tool Selection 에이전트가 작업에 가장 적합하고 효율적인 도구를 선택했는지 여부를 측정합니다.
도구 입력 정확도 접지, 형식, 형식, 완전성 및 적합성을 포함하여 엄격한 조건으로 모든 도구 호출 매개 변수가 올바른지 확인합니다.
도구 출력 사용률 에이전트가 응답 및 후속 호출에서 도구 출력을 올바르게 해석하고 사용하는지 여부를 측정합니다.
도구 호출 성공 기술 오류 없이 모든 도구 호출이 성공적으로 실행되었는지 여부를 평가합니다.

자세한 내용은 에이전트 평가자를 참조하세요.

OpenAI 채점자 Azure

Evaluator Purpose
Model Labeler 사용자 지정 지침 및 레이블을 사용하여 콘텐츠를 분류합니다.
String Checker 유연한 텍스트 유효성 검사 및 패턴 일치를 수행합니다.
Text Similarity 텍스트의 품질을 평가하거나 의미 체계의 근접성을 결정합니다.
Model Scorer 사용자 지정 지침에 따라 콘텐츠의 숫자 점수(사용자 지정 범위)를 생성합니다.

자세한 내용은 Azure OpenAI Graders 참조하세요.

사용자 지정 평가자(미리 보기)

기본 제공 평가기 외에도 특정 평가 기준에 맞게 조정된 사용자 지정 평가자를 만들 수 있습니다. 사용자 지정 평가기를 사용하면 비즈니스 요구 사항 및 애플리케이션별 요구 사항에 맞는 고유한 점수 매기기 논리, 유효성 검사 규칙 및 품질 메트릭을 정의할 수 있습니다.

자세한 내용은 사용자 지정 평가자를 참조하세요.

Combining evaluators

포괄적인 품질 평가를 위해 여러 평가자를 결합합니다.

  • RAG 애플리케이션: 검색 + 접지 + 관련성 + 콘텐츠 안전
  • 에이전트 애플리케이션: 도구 호출 정확도 + 작업 준수 + 의도 확인 + 콘텐츠 안전
  • 번역 애플리케이션: BLEU + METEOR + 유창성 + 일관성
  • 모든 애플리케이션: 책임 있는 AI 관행에 대한 위험 및 안전 평가자 추가(증오 및 불공정, 성적, 폭력, Self-Harm)