[이 문서는 시험판 설명서이며 변경될 수 있습니다.]
실시간 음성을 켜고, 핵심 옵션을 설정한 다음, 토픽, 다국어 지원, DTMF 및 무음 감지와 같은 기능을 구성하여 실시간 음성 에이전트를 구성합니다.
실시간 음성 설정 및 사용
새 에이전트를 만들고 설명에서 설명 이름 및 에이전트의 용도와 같은 기본 세부 정보를 구성합니다.
에이전트의 음성 설정으로 이동하여 음성 사용 기능을 설정한 다음 , 음성 유형에서 실시간 음성을 선택합니다. 음성을 처리하는 방법 선택에서 자세히 알아보세요.
Important
일회성 선택입니다. 실시간 음성을 선택한 후에는 기본 음성으로 다시 전환할 수 없습니다. 기본 음성을 사용하려면 새 에이전트를 만듭니다.
에이전트의 보안 설정으로 이동하여 인증 없음을 선택합니다.
지식 및 도구
지식과 도구를 사용하도록 에이전트를 구성할 수 있습니다. 기술 자료 요약, 사용자 지정 에이전트에 도구 추가, 도구, 지식, MCP 및 API에 대해 자세히 알아봅니다.
중첩된 에이전트(프리뷰)
실시간 음성 에이전트는 자식 에이전트만 지원합니다.
Important
자식 에이전트 설명이 토픽 설명과 겹치지 않도록 합니다. 에이전트의 지침에서 호출 순서를 명시적으로 정의합니다.
토픽
실시간 음성 에이전트는 Copilot Studio에 구성된 모든 항목을 지원합니다 . 토픽을 사용하여 인사말, 비즈니스 규칙 및 에스컬레이션과 같은 결정적 동작을 정의하고 실시간 음성 모델은 런타임에 대화형 응답을 관리합니다. 대화를 제어하는 방법 선택에서 자세히 알아보세요.
실시간 음성 에이전트와 함께 토픽을 사용하는 경우의 모범 사례
결정적 동작이 필요한 경우에만 토픽을 사용합니다.
가장 빠른 첫 번째 응답을 위해 인사말 메시지에 정적 텍스트를 사용합니다. 변수 및 식이 있는 동적 메시지는 초기 대기 시간을 증가합니다.
대화 시작은 기본적으로 사용하도록 설정됩니다. 실시간 음성 모델이 인사말을 처리하도록 하려면 대화 시작 항목을 사용하지 않도록 설정합니다. 그렇지 않으면 대화 시작 항목에 구성된 인사말이 음성 모델 인사말 대신 재생됩니다.
실시간 음성 모델이 일반적인 대화 및 후속 질문을 처리하도록 합니다.
오류 발생 항목에는 전송 또는 종료와 같은 명시적 작업이 포함되어야 합니다. 메시지 전용 오류 처리로는 충분하지 않습니다. 결정적인 다음 단계가 없으면 고객은 침묵 또는 통화가 중단되어 혼란과 음성 환경이 저하될 수 있습니다.
명시적 토픽 및 도구 설명을 사용하여 데이터 컬렉션의 소유권을 선언합니다. 효과적인 쓰기 항목 및 도구 설명에 대해 자세히 알아보세요.
토픽 노드 지원
다음 목록에서는 실시간 음성 에이전트의 토픽 지원에 대해 설명합니다.
조건 노드
| 특징 | 지원 |
|---|---|
| If/Else 분기 | 지원 |
| Power Fx 수식 | 지원 |
| 슬롯 채우기 재처리 | 지원 |
메시지 노드
| 기능 | 지원 |
|---|---|
| 기본 메시지 | 지원 |
| 메시지 변형 | 지원됨 |
| 변수 삽입 | 지원됨 |
| Ssml | 지원 |
| 리치 미디어/적응형 카드 | 해당 없음 |
| 빠른 회신 | 해당 없음 |
질문 노드
| 특징 | 지원 |
|---|---|
| 프롬프트 텍스트 | 지원됨 |
| 자동 보류 | 지원되지 않음 |
| 슬롯 채우기 | 지원됨 |
| 동작 건너뛰기/탐욕적 슬롯 채우기 | 지원됨 |
| 다시 프롬프트/다시 시도 | 지원됨 |
| 잘못된 응답 처리 | 지원됨 |
| 토픽 중단 | 지원됨 |
| 개입 | 지원됨 |
| 사용자 지정 재프롬프트 메시지 | 지원됨 |
| DTMF 입력 | 지원됨 |
| 정적 감지 | 지원됨 |
HTTP 노드
| 기능 | 지원 |
|---|---|
| HTTP 메서드(방법): GET, POST, PUT, PATCH, DELETE | 지원 |
| URL 엔드포인트 | 지원 |
| 헤더 및 페이로드 | 지원 |
| 응답 구문 분석 및 스키마 | 지원 |
| 변수 매핑 | 지원 |
| 오류 처리 | 지원 |
도구 노드
| 특징 | 지원 |
|---|---|
| Power Automate 흐름 | 지원됨 |
| 도구 호출 | 지원됨 |
| 입력/출력 매핑 | 지원됨 |
| 새 프롬프트 | 지원됨 |
변수 값 노드 설정
| 기능 | 지원 |
|---|---|
| 리터럴 할당 | 지원 |
| 식 할당 | 지원 |
| 변수에서 변수로 | 지원 |
토픽 관리 노드
| 기능 | 지원 |
|---|---|
| 현재 항목 종료 | 지원 |
| 모든 항목 종료 | 지원 |
| 대화 종료 | 지원 |
| 단계로 이동 | 지원 |
| 의도 인식에 대한 사용자 입력 | 지원 |
| 다른 항목으로 이동 | 지원 |
대화 노드 전송
| 기능 | 지원 |
|---|---|
| 에이전트로 전송 | 지원 |
| 외부 전화 번호 전송 | 지원 |
고급
| 특징 | 지원 |
|---|---|
| 생성형 답변 만들기 | 지원 |
시스템 트리거 지원
| 트리거 | 지원 | 세부 정보 |
|---|---|---|
| 대화 시작 시 | 지원됨 | 새 대화가 시작될 때 발생합니다. |
| 담당자와 대화할 때 | 지원됨 | 인간 에이전트로 전송 |
| 알 수 없는 항목/알 수 없는 의도 | 지원되지 않음 | 항목이 일치하지 않는 경우 대체 |
| OnSelectIntent(여러 항목이 일치) | 지원되지 않음 | 유사한 주제 간의 구분 |
| 대화 재설정(OnSystemRedirect) | 지원됨 | 변수를 지우고 흐름을 다시 시작합니다. |
| 로그인 시 | 지원되지 않음 | |
| 알 수 없는 DTMF 키 누르기 | 지원됨 | 매핑되지 않은 키패드 입력 |
| 에이전트가 문구를 선택하고 사용자가 말을 합니다. | 지원됨 | 에이전트가 의도에 따라 토픽을 선택합니다. |
| 메시지가 수신됨 | 지원되지 않음 | 대기 시간 증가 |
| 사용자 지정 클라이언트 이벤트가 발생합니다. | 지원되지 않음 | 세션 시작 시만 |
| 대화 업데이트 | 지원되지 않음 | 멤버 추가 또는 제거, 세션 변경 |
| 호출됩니다 | 지원되지 않음 | 동기 UI 필요 |
| 리디렉션됨 | 지원됨 | |
| 사용자가 잠시 동안 비활성 상태인 경우/무음 감지 | 지원됨 | 사용자 비활성 시간 제한 |
| 계획이 완료됨 | 지원되지 않음 | |
| 생성된 AI 응답 | 지원되지 않음 | |
| 오류 발생 시 | 지원됨 | 오케스트레이션 오류 처리 |
토픽과 언어 모델 간에 변수 전달
하이브리드 대화 흐름에서 토픽을 사용하는 경우 토픽과 실시간 언어 모델 간에 변수를 전달하는 방법을 이해하는 것은 안정적이고 상태 저장 상호 작용을 구축하는 데 중요합니다.
이 기능은 다음 프로세스를 통해 작동합니다.
호출 시 토픽에 정의된 입력 변수를 토픽에 전달하므로 언어 모델은 결정적 흐름에 구조적 데이터를 제공할 수 있습니다.
토픽 실행 종료 시, 토픽에 정의된 출력 변수를 구조화된 키-값 쌍으로 해당 언어 모델에 반환합니다. 언어 모델에는 이러한 출력이 대화 컨텍스트에 포함되며 이후 턴에서 참조할 수 있습니다.
도구 호출 출력은 동일한 패턴을 따릅니다. 도구 실행이 끝날 때 언어 모델로 출력을 보내면 나중에 대화 컨텍스트 창 내에서 사용할 수 있습니다.
언어 모델은 도구 호출 출력 키-값 쌍을 포함하여 대화형 컨텍스트로 채워집니다. 그러나 명시적으로 정의된 출력 변수 만 구조적 데이터로 반환합니다. 확인된 계정 번호와 같은 토픽 내에서 값을 수집할 수 있습니다. 해당 값을 출력으로 정의합니다. 그렇지 않으면 언어 모델에 액세스할 수 없습니다. 에이전트는 나중에 호출자에게 동일한 정보를 다시 요청할 수 있습니다.
항목 입력 및 출력 관리에서 자세히 알아봅니다.
다국어 지원
원하는 모든 보조 언어를 추가합니다. 실시간 흐름에는 지역화 문자열이 필요하지 않습니다. 그러나 결정적 토픽 메시지의 경우 번역된 메시지를 제공해야 합니다. 다국어 에이전트 구성 및 만들기에 대해 자세히 알아봅니다.
실시간 모델은 여러 언어로 이해하고 응답할 수 있습니다. 그러나 Microsoft 일반 공급에 대한 모든 언어의 유효성을 공식적으로 검사하지는 않습니다.
2026년 4월을 기준으로 다음 언어의 유효성이 공식적으로 검사됩니다.
- 영어(미국)(en-US)
- 스페인어(미국)(es-US)
- Arabic
- 포르투갈어(브라질)(pt-BR)
- 이탈리아어(이탈리아) (it-IT)
- 독일어(독일) (de-DE)
- 네덜란드어(네덜란드)(nl-NL)
- 프랑스어(캐나다)(fr-CA)
Microsoft는 다른 언어의 유효성을 계속 검사하고 인증 완료 후 추가합니다. Copilot Studio에서 지원하는 모든 언어를 추가할 수 있습니다. 그러나 GA 수준 품질에 대해 완전히 인증되지 않은 언어는 프로덕션 배포 전에 철저히 테스트해야 합니다.
Important
기술 언어 기능은 지원되거나 인증된 언어와 같지 않습니다. 영어 이외의 언어로 에이전트를 배포하려는 경우 라이브로 전환하기 전에 실제 발신자 및 통화 흐름으로 광범위한 테스트를 수행해야 합니다.
컨텍스트 변수
실시간 음성 에이전트는 통화, 발신자 및 현재 대화에 대한 정보를 전달하여 보다 지능적으로 동작할 수 있는 컨텍스트 변수를 지원합니다. 시스템은 런타임에 모델에 제한된 호출 및 대화 컨텍스트 집합을 자동으로 제공합니다. 이 집합에는 다음이 포함됩니다.
| 컨텍스트 변수 | Description |
|---|---|
| 채널 ID | 상호 작용에 사용되는 통신 채널을 식별합니다. 이 식별은 모델이 음성 음성 변환 음성 채널을 통해 대화가 발생한다는 것을 이해하는 데 도움이 됩니다. |
| 발신자 전화 번호(ANI) | 발신자의 원래 전화 번호입니다. 시스템은 이 정보를 사용하여 호출자 식별 시나리오를 지원할 수 있습니다. |
| 수신자 번호(DNIS) | 발신자가 전화한 대상 전화 번호입니다. 이 정보는 도달한 사업자 번호 또는 진입점을 구분하는 데 도움이 됩니다. |
| 대화 ID | 활성 호출 세션에 대한 고유 식별자입니다. 이 값을 사용하여 단일 대화 내에서 연속성을 상호 연결하고 유지합니다. |
| SIP 헤더 | 호출에 연결된 지원되는 SIP 헤더 키-값 쌍 집합입니다. 이 집합에는 민감하지 않은 헤더와 지원되는 헤더만 포함됩니다. |
| 현재 날짜(UTC) | 날짜 인식 응답을 허용하기 위해 런타임에 제공되는 UTC(협정 세계시)의 현재 날짜입니다. |
| 현재 시간(UTC) | 시간 인식 응답을 허용하기 위해 런타임에 제공되는 UTC(협정 세계시)의 현재 시간입니다. |
다른 모든 컨텍스트 변수의 경우 에이전트에 대한 컨텍스트 변수 구성에 설명된 단계를 따릅니다.
에이전트 음성
에이전트를 선택하여 에이전트에서 사용하는 음성을 선택하고 설정>음성>선택 음성으로 이동합니다. 실시간 음성 에이전트는 다음 음성을 지원합니다.
- 합금
- 재
- 발라드
- 산호
- 에코
- 세이지
- Shimmer
- 구절
- 마린
- 삼목
메모
- 에이전트 음성은 실시간 음성 에이전트를 위한 것이며 Copilot Service 관리 센터에 구성된 음성이 아닙니다.
- Dynamics 시스템 메시지 음성을 실시간 음성 에이전트와 일치하려면 Alloy, Echo, Shimmer 또는 Ash와 같은 지원되는 음성만 사용합니다.
음성 민감도
VAD(음성 민감도 음성 활동 감지)는 호출자가 말하기를 완료한 후 에이전트가 응답해야 하는 시기를 결정합니다.
VAD 형식 이해
실시간 음성 에이전트는 두 가지 VAD 접근 방식을 지원합니다.
서버 기반 VAD - 소리 기반(무음)
오디오 신호(무음 기간, 볼륨)를 기반으로 음성 종료를 감지합니다.
침묵이 감지되면 신속하게 응답합니다.
결정적이고 예측 가능한 동작
구조화된 상호 작용, 짧은 응답, 시끄러운 환경에 가장 적합합니다.
의미 체계 VAD - 문장 컨텍스트 기반
말한 내용의 의미 에 따라 턴 완성을 결정합니다.
호출자가 자신의 생각을 완료했는지 여부를 평가합니다.
자연스러운 일시 중지, 필러 단어, 후행 음성에 맞게 조정
최적 대상: 대화형 상호 작용, 복잡한 질문, 개방형 토론
올바른 VAD 선택
다음 조건이 모두 충족되면 서버 기반 VAD를 사용합니다.
상호 작용은 구조화되어 있습니다(IVR 스타일 메뉴 탐색).
응답은 짧고 예측 가능합니다.
백그라운드 노이즈는 문제입니다(의미 체계 VAD가 너무 오래 기다릴 수 있습니다).
당신은 빠르고 명확한 턴테이킹을 원한다.
다음 조건이 모두 충족되면 의미 체계 VAD를 사용합니다.
대화는 개방형입니다.
호출자는 주저하거나 필러 단어("um", "let me think...")를 사용할 수 있습니다.
질문은 복잡합니다(발신자가 상황을 설명).
자연스러운 대화 흐름이 우선 순위가 지정됩니다.
서버 기반 VAD 구성
설정>전화 설정>민감도>으로 이동합니다.
| 매개 변수 | Description | 기본값 | 권장 범위 |
|---|---|---|---|
| 임계값 | 음성 및 노이즈에 대한 민감도(0-1 배율) | 0.6 | 0.5-0.7 |
| 접두사 패딩(ms) | 음성이 시작되기 전에 캡처된 오디오 | 300ms | 200-500ms |
| 무음 기간(ms) | 턴을 종료하는 데 필요한 침묵 | 750ms | 750-1000ms |
임계값
낮은 (0.3-0.4): 더 민감하여, 특히 조용한 음성을 감지하고, 백그라운드 소음에 의해 활성화될 수 있습니다.
높음(0.7-0.9): 덜 민감함, 더 큰 음성이 필요하고, 거짓 트리거를 줄입니다.
권장 사항: 0.5부터 시작; 배경 노이즈가 잘못된 트리거를 발생시키는 경우 증가합니다.
접두사 패딩
음성 감지 전에 오디오를 캡처합니다(첫 번째 단어가 잘리는 것을 방지합니다).
200ms 이하: 더 빠른 응답, 첫 번째 음절을 놓칠 수 있습니다.
상위(500ms): 더 안전한 캡처; 약간의 지연.
권장: 300ms (양호한 균형).
무음 기간
에이전트가 응답하기 전에 호출자가 침묵해야 하는 기간입니다.
아래쪽(500ms): 빠른 턴테이크; 호출자가 중간 생각을 일시 중지하면 중단될 수 있습니다.
더 높은 (1000ms): 더 인내심 있는; 느리게 느껴질 수 있습니다.
권장: 750ms로 시작합니다.
의미 기반 VAD 구성
설정>음성>전화 설정>음성 입력>민감도>문장 컨텍스트에 따라으로 이동합니다.
매개 변수: 열망 (의미 체계가 완료된 후 에이전트가 응답하는 시간)
| 설정 | 작동 방식 | 적합한 대상 |
|---|---|---|
| 낮음 | 더 오래 기다린다, 매우 참을성 | 큰 소리로 생각하는 발신자, 자주 일시 중지 |
| 중간 | 잔액(기본값) | 일반 대화 |
| 높음 | 신속하게 응답 | 빠르게 진행되는 상호 작용, 간단한 질문 |
DTMF 구성
듀얼톤 다중 주파수(DTMF)를 사용하면 발신자가 전화 키패드를 사용하여 정보를 입력할 수 있습니다.
토픽 및 전역 수준에서 에이전트에 대해 DTMF를 켤 수 있습니다. 전역 수준에서 설정하려면 에이전트를 선택하고 설정>음성>대화 동작>DTMF로 이동합니다.
토픽 노드별로 설정하려면 음성 지원 에이전트에 대한 DTMF 지원 켜기에서 자세히 알아보세요.
신뢰할 수 있는 입력 완성을 지원하기 위해 DTMF 타이밍 및 종료 동작을 구성할 수 있습니다. 이 구성에는 시스템이 키 누름 사이의 대기 시간을 정의하는 숫자 간 시간 제한과 입력 끝을 명시적으로 알리는 선택적 종료 문자(예: # 또는 *)가 포함됩니다. 종료 문자를 사용하면 시스템이 시간 제한을 기다리지 않고 입력을 즉시 처리합니다.
정적 감지
침묵 감지를 통해 실시간 음성 에이전트는 호출자가 지정된 기간 동안 입력을 제공하지 않는 경우를 인식할 수 있습니다. 설정>에서 음성>대화 동작>침묵 감지를 전역 음성 설정으로 에이전트에 대해 설정합니다.
무음 타이머는 에이전트가 말하기를 종료하고 호출자에게서 DTMF 입력이나 음성이 감지되지 않을 때 시작됩니다. 무음 시간 제한에 도달하면 에이전트는 구성된 무음 검색 항목을 따릅니다.
Important
무음 감지는 기본적으로 켜지지 않습니다. 사용자가 말을 하지 않으면 에이전트는 메시지를 표시하지 않고 무기한 대기합니다. 무음 감지를 명시적으로 켜고, 무음 호출자를 처리하기 위해 재설정 메시지를 구성합니다.
기본 무음 감지 시간 제한은 7,000ms(7초)입니다. 프로덕션 환경에 배포하기 전에 특정 사용 사례 및 호출자 환경에 대해 이 값의 유효성을 검사합니다. 복잡한 질문 또는 시끄러운 환경과 같이 상호 작용의 특성에 따라 일부 호출자에게는 7초가 너무 길거나 다른 호출자에게는 너무 짧게 느껴질 수 있습니다. 실제 호출 데이터를 사용하여 테스트하여 시나리오에 적합한 임계값을 결정합니다.
무음 검색을 사용하도록 설정하기 전에 침묵 검색 항목(예: 에스컬레이션, 끊기, Reprompt)에서 구성하는 동작이 의도적이고 사용 사례에 적합한지 확인합니다. 잘못 구성된 폴백 동작, 예를 들어, 의도와는 다르게 전화를 끊어야 할 상황에서 폴백을 에스컬레이션으로 설정하거나 그 반대로 설정하게 되면, 예상치 못한 통화 결과를 초래할 수 있습니다.
지연 메시징
백그라운드 작업이 예상보다 오래 걸리는 경우 에이전트에 대기 시간 메시지 또는 음악을 추가합니다. 대기 시간 메시징을 구성하려면설정 음성>대화 동작>대기 시간 메시징으로 이동합니다>.
실시간 음성 에이전트 평가(미리 보기)
실시간 음성 에이전트는 평가 중에 텍스트 전송을 지원합니다. 그러나 오디오 처리는 지원되지 않습니다.