Observação
O acesso a essa página exige autorização. Você pode tentar entrar ou alterar diretórios.
O acesso a essa página exige autorização. Você pode tentar alterar os diretórios.
[Este artigo faz parte da documentação de pré-lançamento e está sujeito a alterações.]
Configure um agente de voz em tempo real ativando a voz em tempo real, definindo opções principais e configurando recursos como tópicos, suporte multilíngue, DTMF e detecção de silêncio.
Configurar e habilitar a voz em tempo real
Crie um novo agente e configure seus detalhes básicos, como um nome descritivo e a finalidade do agente na descrição.
Vá para as configurações de Voz do agente e ative Habilitar voz e, em seguida, no tipo de voz, selecione voz em tempo real. Saiba mais em Escolher como lidar com a fala.
Importante
Esta é uma seleção única. Depois de selecionar a voz em tempo real, você não poderá alternar de volta para a voz Básica. Para usar a voz Básica, crie um novo agente.
Vá para as configurações de Segurança do agente e selecione Nenhuma Autenticação.
Conhecimento e ferramentas
Você pode configurar seu agente para usar o conhecimento e as ferramentas. Saiba mais em Resumo de fontes de conhecimento, adicionar ferramentas a agentes personalizados e ferramentas, conhecimento, MCP e API.
Agentes aninhados (versão prévia)
Os agentes de voz em tempo real só dão suporte a agentes filho.
Importante
Certifique-se de que as descrições dos subagentes não se sobreponham às descrições dos tópicos. Defina explicitamente a ordem de invocação nas instruções do agente.
Tópicos
Os agentes de voz em tempo real dão suporte a todos os tópicos configurados no Copilot Studio. Use tópicos para definir comportamentos determinísticos, como saudações, regras de negócios e escalonamento, enquanto o modelo de voz em tempo real gerencia respostas de conversação em runtime. Saiba mais em Escolher como controlar a conversa.
Práticas recomendadas ao usar tópicos com agentes de voz em tempo real
Use tópicos somente quando o comportamento determinístico for necessário.
Use texto estático em mensagens de saudação para a primeira resposta mais rápida. Mensagens dinâmicas com variáveis e expressões aumentam a latência inicial.
O Início da Conversa está habilitado por padrão. Se você quiser que o modelo de voz em tempo real manipule a saudação, desabilite o tópico Início da Conversa; caso contrário, a saudação configurada no tópico Início da Conversa será reproduzida em vez da saudação do modelo de voz.
Deixe o modelo de voz em tempo real lidar com a conversa geral e perguntas de acompanhamento.
O tópico On Error deve incluir uma ação explícita, como transferência ou encerrar chamada. O tratamento de erros baseado apenas em mensagens não é suficiente. Sem uma próxima etapa determinística, os clientes podem experimentar silêncio ou chamadas paralisadas, levando a confusão e experiências de voz ruins.
Use descrições explícitas de tópicos e ferramentas para declarar a propriedade da coleta de dados. Saiba mais em Escrever tópicos efetivos e descrições de ferramentas.
Suporte ao nó do Tópico
A lista a seguir descreve o suporte a tópicos em agentes de voz em tempo real:
Nó Condição
| Característica | Suporte |
|---|---|
| Ramificação If/Else | Com suporte |
| Expressões do Power Fx | Com suporte |
| Reprocessamento de preenchimento de slot | Com suporte |
Nó de mensagem
| Recurso | Suporte |
|---|---|
| Mensagem básica | Com suporte |
| Variações de mensagem | Suportado |
| Inserção de variável | Suportado |
| SSML | Com suporte |
| Mídia Avançada/Cartões Adaptáveis | Não aplicável |
| Respostas Rápidas | Não aplicável |
Nó de pergunta
| Característica | Suporte |
|---|---|
| Texto de comando | Suportado |
| Retenção automática | Sem suporte |
| Preenchimento de slot | Suportado |
| Ignorar comportamento/Preenchimento automático de slot | Suportado |
| Reprompt/Tentar novamente | Suportado |
| Tratamento de resposta inválido | Suportado |
| Interrupção do tópico | Suportado |
| Interrupção | Suportado |
| Mensagem de reprompt personalizada | Suportado |
| Entrada DTMF | Suportado |
| Detecção de silêncio | Suportado |
Nó HTTP
| Recurso | Suporte |
|---|---|
| Métodos HTTP: GET, POST, PUT, PATCH, DELETE | Com suporte |
| Pontos de extremidade de URL | Com suporte |
| Cabeçalhos e cargas | Com suporte |
| Análise de resposta e esquema | Com suporte |
| Mapeamento de variável | Com suporte |
| Tratamento de erros | Com suporte |
Nó de ferramenta
| Característica | Suporte |
|---|---|
| Fluxo do Power Automate | Suportado |
| Invocação de ferramenta | Suportado |
| Mapeamento de entrada/saída | Suportado |
| Novo prompt | Suportado |
Definir nó do valor da variável
| Recurso | Suporte |
|---|---|
| Atribuição literal | Com suporte |
| Atribuição de expressão | Com suporte |
| De variável para variável | Com suporte |
Nó de gerenciamento de tópicos
| Recurso | Suporte |
|---|---|
| Fim do tópico atual | Com suporte |
| Encerrar todos os tópicos | Com suporte |
| Encerrar a conversa | Com suporte |
| Ir para a etapa | Com suporte |
| Entrada do usuário para identificar intenção | Com suporte |
| Ir para outro tópico | Com suporte |
Nó Transferir conversa
| Recurso | Suporte |
|---|---|
| Transferir para o agente | Com suporte |
| Transferência de número de telefone externo | Com suporte |
Avançado
| Característica | Suporte |
|---|---|
| Criar respostas gerativas | Com suporte |
Suporte ao disparador do sistema
| Gatilho | Suporte | Detalhes |
|---|---|---|
| No início da conversa | Suportado | Aciona quando uma nova conversa começa |
| Em Conversa com o representante | Suportado | Transferências para o agente humano |
| Tópico desconhecido/sobre intenção desconhecida | Sem suporte | Fallback quando nenhum tópico for correspondente |
| OnSelectIntent (vários tópicos correspondentes) | Sem suporte | Desambiguação entre tópicos semelhantes |
| Reiniciar conversa (OnSystemRedirect) | Suportado | Limpa variáveis e reinicia o fluxo |
| Na Entrada | Sem suporte | |
| Tecla DTMF desconhecida | Suportado | Entrada de teclado não mapeada |
| O agente escolhe/O usuário diz uma frase | Suportado | Agente seleciona tópico com base na intenção |
| Uma mensagem foi recebida | Sem suporte | Aumenta a latência |
| Um evento de cliente personalizado ocorre | Sem suporte | Somente no início da sessão |
| A atualização da conversa | Sem suporte | Membros adicionados ou removidos, alterações de sessão |
| É invocado | Sem suporte | Requer interface do usuário síncrona |
| É redirecionado | Suportado | |
| O usuário está inativo por um tempo/detecção de silêncio | Suportado | Tempo limite de inatividade do usuário |
| Um plano se completa | Sem suporte | |
| Resposta gerada por IA | Sem suporte | |
| Se houver erro | Suportado | Manipula erros de orquestração |
Passar variáveis entre tópicos e entre o modelo de linguagem
Quando você usa tópicos em um fluxo de conversa híbrido, entender como passar variáveis entre tópicos e o modelo de linguagem em tempo real é fundamental para criar interações confiáveis e com estado.
Essa funcionalidade funciona por meio do seguinte processo:
Você passa variáveis de entrada definidas em um tópico para o tópico no momento da invocação, para que o modelo de linguagem possa fornecer dados estruturados para o fluxo determinístico.
Você retorna variáveis de saída definidas em um tópico para o modelo de linguagem no final da execução do tópico como pares chave-valor estruturados. O modelo de linguagem inclui essas saídas no contexto da conversa, e você pode referenciá-las em turnos subsequentes.
As saídas de chamada de ferramenta seguem o mesmo padrão: você envia saídas para o modelo de linguagem no final da execução da ferramenta e elas estão disponíveis para uso futuro dentro da janela de contexto de conversa.
O modelo de linguagem é preenchido com contexto conversacional, incluindo pares de chave e valor produzidos pela saída de chamadas de ferramentas. No entanto, você só retorna variáveis de saída definidas explicitamente como dados estruturados. Você pode coletar um valor dentro de um tópico, como um número de conta verificado. Defina esse valor como uma saída. Se você não fizer isso, o modelo de idioma não conseguirá acessá-lo. O agente pode pedir ao chamador as mesmas informações novamente mais tarde.
Saiba mais em Gerenciar entradas e saídas de tópico.
Suporte multilíngue
Adicione todos os idiomas secundários desejados. Cadeias de caracteres de localização não são necessárias para fluxos em tempo real. No entanto, para mensagens de tópico determinísticas, você precisa fornecer as mensagens traduzidas. Saiba mais em Configurar e criar agentes multilíngues.
O modelo em tempo real pode entender e responder em muitos idiomas. No entanto, Microsoft não valida formalmente todos os idiomas para disponibilidade geral.
A partir de abril de 2026, os seguintes idiomas são validados formalmente:
- Inglês (Estados Unidos) (en-US)
- Espanhol (Estados Unidos) (es-US)
- Árabe
- Português (Brasil) (pt-BR)
- Italiano (Itália) (it-IT)
- Alemão (Alemanha) (de-DE)
- Holandês (Países Baixos) (nl-NL)
- Francês (Canadá) (fr-CA)
A Microsoft continua a validar outros idiomas e adicioná-los após a conclusão da certificação. Você pode adicionar qualquer idioma compatível com o Copilot Studio. No entanto, os idiomas que não são totalmente certificados para qualidade no nível de GA devem ser completamente testados antes da implantação de produção.
Importante
A funcionalidade de linguagem técnica não é igual a um idioma com suporte ou certificado. Se você pretende implantar agentes em idiomas diferentes do inglês, deverá realizar testes extensivos com chamadores do mundo real e fluxos de chamadas antes de entrar no ar.
Variáveis de contexto
Um agente de voz em tempo real dá suporte a variáveis de contexto que permitem que ele se comporte de forma mais inteligente carregando informações sobre a chamada, o chamador e a conversa atual. O sistema fornece automaticamente um conjunto limitado de contexto de chamada e conversa para o modelo em tempo de execução. Esse conjunto inclui:
| Variável de contexto | Descrição |
|---|---|
| ID do Canal | Identifica o canal de comunicação usado para a interação. Essa identificação ajuda o modelo a entender que a conversa está ocorrendo em um canal de voz de fala para fala. |
| Número de telefone do chamador (ANI) | O número de telefone de origem do chamador. O sistema pode usar essas informações para dar suporte a cenários de identificação de chamador. |
| Número do destinatário do chamado (DNIS) | O número de telefone de destino que o chamador ligou. Essas informações ajudam a distinguir qual número de empresa ou ponto de acesso foi atingido. |
| ID da conversa | Um identificador exclusivo para a sessão de chamada ativa. Use esse valor para correlacionar e manter a continuidade em uma única conversa. |
| Cabeçalhos SIP | Um conjunto de pares chave-valor de cabeçalho SIP com suporte associados à chamada. O conjunto inclui apenas cabeçalhos não sensíveis e com suporte. |
| Data atual (UTC) | A data atual em UTC (Tempo Universal Coordenado), fornecida em runtime para permitir respostas com reconhecimento de data. |
| Hora atual (UTC) | O tempo atual em UTC (Tempo Universal Coordenado), fornecido no runtime para permitir respostas com reconhecimento de tempo. |
Para todas as outras variáveis de contexto, siga as etapas descritas em Configurar variáveis de contexto para agentes.
Voz do agente
Selecione a voz que seu agente usa selecionando seu agente e vá para Configurações>Voz>Selecionar voz. Os agentes de voz em tempo real dão suporte às seguintes vozes:
- Liga
- Cinzas
- Balada
- Coral
- Eco
- Sage
- Shimmer
- Verse
- Marin
- Cedro
Note
- A voz do agente é para o agente de voz em tempo real e não é a que está configurada no Centro de Administração do Copilot Service.
- Para corresponder suas vozes de mensagem do sistema Dynamics com seu agente de voz em tempo real, use apenas as seguintes vozes com suporte: Alloy, Echo, Shimmer ou Ash.
Sensibilidade à fala
A detecção de atividade de voz sensível à fala (VAD) determina quando o agente deve responder depois que o chamador terminar de falar.
Noções básicas sobre os tipos de VAD
Os agentes de voz em tempo real dão suporte a duas abordagens de Detecção de Atividade Vocal (VAD):
VAD baseado em servidor – Com base no som (silêncio)
Detecta o fim da fala com base em sinais de áudio (duração do silêncio, volume)
Responde rapidamente quando o silêncio é detectado
Comportamento determinístico e previsível
Melhor para interações estruturadas, respostas curtas, ambientes barulhentos
VAD semântico – Com base no contexto da frase
Determina a conclusão da curva com base no significado do que foi dito
Avalia se o chamador concluiu seu pensamento
Adapta-se a pausas naturais, vícios de linguagem, frases interrompidas
Melhor para: interações conversacionais, perguntas complexas, discussões abertas
Selecione o VAD certo
Use o VAD baseado em servidor quando todas as seguintes condições forem verdadeiras:
As interações são estruturadas (navegação no menu no estilo IVR).
As respostas são curtas e previsíveis.
O ruído de fundo é uma preocupação (a detecção automática de voz, ou VAD, semântica pode demorar muito).
Você quer uma troca de turnos rápida e eficiente.
Use VAD semântico quando todas as seguintes condições forem verdadeiras:
As conversas são abertas e sem conclusão definida.
Os chamadores podem hesitar ou usar palavras de preenchimento ("hum", "deixe-me pensar...").
As perguntas são complexas (os chamadores explicam situações).
O fluxo de conversa natural é priorizado.
Configurar o VAD baseado em servidor
Vá para Configurações>Voz>Configuração do Telefone>Entrada de Fala>Sensibilidade>Com base no som (silêncio).
| Parâmetro | Descrição | Default | Intervalo recomendado |
|---|---|---|---|
| Limite | Sensibilidade à voz versus ruído (escala de 0 a 1) | 0,6 | 0.5-0.7 |
| Preenchimento de prefixo (ms) | Áudio capturado antes do início da fala | 300 ms | 200-500 ms |
| Duração do Silêncio (ms) | Silêncio necessário para encerrar a curva | 750 ms | 750-1000 ms |
Limite
Mais baixo (0,3-0,4): mais sensível; detecta fala baixa, pode disparar em presença de ruído de fundo.
Superior (0.7-0.9): menos sensível; requer fala mais alta, reduz gatilhos falsos.
Recomendado: comece com 0,5; aumentará se o ruído de plano de fundo causar gatilhos falsos.
Preenchimento de prefixo
Captura áudio antes da detecção de fala (impede o corte da primeira palavra).
Menor (200 ms): resposta mais rápida; pode perder a primeira sílaba.
Maior (500 ms): captura mais segura; pequeno atraso.
Recomendado: 300 ms (bom equilíbrio).
Duração do silêncio
Por quanto tempo o chamador deve ficar em silêncio antes que o agente responda.
Baixo (500 ms): alternância de fala mais rápida; pode interromper se o chamador fizer uma pausa no meio da frase.
Maior (1000 ms): mais paciente; pode parecer lento.
Recomendado: comece com 750 ms.
Configurar VAD Semântico
Vá para Configurações>Voz>Configuração do Telefone>Entrada de Fala>Sensibilidade>Com Base no Contexto da Frase.
Parâmetro: Rapidez (a rapidez com que o agente responde após a conclusão do sentido da frase)
| Configurações | Behavior | Mais adequado para |
|---|---|---|
| Baixo | Espera mais, muito paciente | Chamadores que pensam em voz alta, pausas frequentes |
| Medium | Balanceado (padrão) | Conversas gerais |
| Alto | Responde rapidamente | Interações rápidas, perguntas simples |
Configuração de DTMF
Multifrequência de Tom Duplo (DTMF) permite que os chamadores insiram informações usando o teclado de seus telefones.
Você pode ativar o DTMF para seu agente nos níveis de tópico e global. Para defini-lo no nível global, selecione seu agente e vá para Configurações>Voz>Comportamento de Conversa>DTMF.
Para defini-la por nó de tópico, saiba mais em Ativar o suporte DTMF para seu agente ativado por voz.
Para dar suporte à conclusão de entrada confiável, você pode configurar a temporização de DTMF e o comportamento de terminação. Essa configuração inclui um tempo limite entre dígitos, que define quanto tempo o sistema aguarda entre pressionamentos de tecla e um caractere de terminação opcional (como # ou *) que sinaliza explicitamente o fim da entrada. Quando você usa um caractere de terminação, o sistema processa a entrada imediatamente sem esperar um tempo limite.
Detecção de silêncio
A detecção de silêncio permite que agentes de voz em tempo real reconheçam quando um chamador não fornece nenhuma entrada para um período especificado. Configure a detecção de silêncio como uma configuração global de voz para o agente acessando Configurações>Voz>Comportamento de Conversa>Detecção de Silêncio.
O temporizador de silêncio começa quando o agente termina de falar e não detecta nenhuma entrada de fala ou DTMF do chamador. Se o tempo limite de silêncio for atingido, o agente seguirá o que está especificado no tópico de detecção de silêncio configurado.
Importante
A detecção de silêncio não está ativada por padrão. Se o usuário não falar, o agente aguardará indefinidamente sem solicitar. Ative explicitamente a detecção de silêncio e configure uma mensagem de nova solicitação para lidar com chamadores silenciosos.
O tempo limite padrão de detecção de silêncio é de 7.000 ms (7 segundos). Valide este valor de acordo com o seu caso de uso específico e o ambiente do chamador antes de implantar em produção. Sete segundos podem parecer muito longos para alguns chamadores ou muito curtos para outros, dependendo da natureza da interação, por exemplo, perguntas complexas ou ambientes barulhentos. Teste com dados de chamada do mundo real para determinar o limite apropriado para seu cenário.
Antes de habilitar a detecção de silêncio, verifique se o comportamento configurado no tópico de detecção de silêncio (por exemplo, Escalonar, Desligar, Repromptar) é intencional e apropriado para seu caso de uso. O comportamento de fallback configurado incorretamente, como definir inadvertidamente o fallback para Escalonar quando a intenção é desligar ou vice-versa, pode levar a resultados inesperados nas chamadas.
Mensagens de latência
Adicione uma mensagem de latência ou música ao agente quando as operações em segundo plano levarem mais tempo do que o esperado. Para configurar a mensagem de latência, acesse Configurações>Voz>Comportamento de Conversa>Mensagens de Latência.
Avaliação do agente de voz em tempo real (versão prévia)
Os agentes de voz em tempo real dão suporte ao envio de texto durante a avaliação, no entanto, o processamento de áudio não é compatível.