Configurar agentes de voz em tempo real

[Este artigo faz parte da documentação de pré-lançamento e está sujeito a alterações.]

Configure um agente de voz em tempo real ativando a voz em tempo real, definindo opções principais e configurando recursos como tópicos, suporte multilíngue, DTMF e detecção de silêncio.

Configurar e habilitar a voz em tempo real

Crie um novo agente e configure seus detalhes básicos, como um nome descritivo e a finalidade do agente na descrição.
Vá para as configurações de Voz do agente e ative Habilitar voz e, em seguida, no tipo de voz, selecione voz em tempo real. Saiba mais em Escolher como lidar com a fala.

Importante

Esta é uma seleção única. Depois de selecionar a voz em tempo real, você não poderá alternar de volta para a voz Básica. Para usar a voz Básica, crie um novo agente.
Vá para as configurações de Segurança do agente e selecione Nenhuma Autenticação.

Conhecimento e ferramentas

Você pode configurar seu agente para usar o conhecimento e as ferramentas. Saiba mais em Resumo de fontes de conhecimento, adicionar ferramentas a agentes personalizados e ferramentas, conhecimento, MCP e API.

Agentes aninhados (versão prévia)

Os agentes de voz em tempo real só dão suporte a agentes filho.

Importante

Certifique-se de que as descrições dos subagentes não se sobreponham às descrições dos tópicos. Defina explicitamente a ordem de invocação nas instruções do agente.

Tópicos

Os agentes de voz em tempo real dão suporte a todos os tópicos configurados no Copilot Studio. Use tópicos para definir comportamentos determinísticos, como saudações, regras de negócios e escalonamento, enquanto o modelo de voz em tempo real gerencia respostas de conversação em runtime. Saiba mais em Escolher como controlar a conversa.

Práticas recomendadas ao usar tópicos com agentes de voz em tempo real

Use tópicos somente quando o comportamento determinístico for necessário.
Use texto estático em mensagens de saudação para a primeira resposta mais rápida. Mensagens dinâmicas com variáveis e expressões aumentam a latência inicial.
O Início da Conversa está habilitado por padrão. Se você quiser que o modelo de voz em tempo real manipule a saudação, desabilite o tópico Início da Conversa; caso contrário, a saudação configurada no tópico Início da Conversa será reproduzida em vez da saudação do modelo de voz.
Deixe o modelo de voz em tempo real lidar com a conversa geral e perguntas de acompanhamento.
O tópico On Error deve incluir uma ação explícita, como transferência ou encerrar chamada. O tratamento de erros baseado apenas em mensagens não é suficiente. Sem uma próxima etapa determinística, os clientes podem experimentar silêncio ou chamadas paralisadas, levando a confusão e experiências de voz ruins.
Use descrições explícitas de tópicos e ferramentas para declarar a propriedade da coleta de dados. Saiba mais em Escrever tópicos efetivos e descrições de ferramentas.

Suporte ao nó do Tópico

A lista a seguir descreve o suporte a tópicos em agentes de voz em tempo real:

Nó Condição

Característica	Suporte
Ramificação If/Else	Com suporte
Expressões do Power Fx	Com suporte
Reprocessamento de preenchimento de slot	Com suporte

Nó de mensagem

Recurso	Suporte
Mensagem básica	Com suporte
Variações de mensagem	Suportado
Inserção de variável	Suportado
SSML	Com suporte
Mídia Avançada/Cartões Adaptáveis	Não aplicável
Respostas Rápidas	Não aplicável

Nó de pergunta

Característica	Suporte
Texto de comando	Suportado
Retenção automática	Sem suporte
Preenchimento de slot	Suportado
Ignorar comportamento/Preenchimento automático de slot	Suportado
Reprompt/Tentar novamente	Suportado
Tratamento de resposta inválido	Suportado
Interrupção do tópico	Suportado
Interrupção	Suportado
Mensagem de reprompt personalizada	Suportado
Entrada DTMF	Suportado
Detecção de silêncio	Suportado

Nó HTTP

Recurso	Suporte
Métodos HTTP: GET, POST, PUT, PATCH, DELETE	Com suporte
Pontos de extremidade de URL	Com suporte
Cabeçalhos e cargas	Com suporte
Análise de resposta e esquema	Com suporte
Mapeamento de variável	Com suporte
Tratamento de erros	Com suporte

Nó de ferramenta

Característica	Suporte
Fluxo do Power Automate	Suportado
Invocação de ferramenta	Suportado
Mapeamento de entrada/saída	Suportado
Novo prompt	Suportado

Definir nó do valor da variável

Recurso	Suporte
Atribuição literal	Com suporte
Atribuição de expressão	Com suporte
De variável para variável	Com suporte

Nó de gerenciamento de tópicos

Recurso	Suporte
Fim do tópico atual	Com suporte
Encerrar todos os tópicos	Com suporte
Encerrar a conversa	Com suporte
Ir para a etapa	Com suporte
Entrada do usuário para identificar intenção	Com suporte
Ir para outro tópico	Com suporte

Nó Transferir conversa

Recurso	Suporte
Transferir para o agente	Com suporte
Transferência de número de telefone externo	Com suporte

Avançado

Característica	Suporte
Criar respostas gerativas	Com suporte

Suporte ao disparador do sistema

Gatilho	Suporte	Detalhes
No início da conversa	Suportado	Aciona quando uma nova conversa começa
Em Conversa com o representante	Suportado	Transferências para o agente humano
Tópico desconhecido/sobre intenção desconhecida	Sem suporte	Fallback quando nenhum tópico for correspondente
OnSelectIntent (vários tópicos correspondentes)	Sem suporte	Desambiguação entre tópicos semelhantes
Reiniciar conversa (OnSystemRedirect)	Suportado	Limpa variáveis e reinicia o fluxo
Na Entrada	Sem suporte
Tecla DTMF desconhecida	Suportado	Entrada de teclado não mapeada
O agente escolhe/O usuário diz uma frase	Suportado	Agente seleciona tópico com base na intenção
Uma mensagem foi recebida	Sem suporte	Aumenta a latência
Um evento de cliente personalizado ocorre	Sem suporte	Somente no início da sessão
A atualização da conversa	Sem suporte	Membros adicionados ou removidos, alterações de sessão
É invocado	Sem suporte	Requer interface do usuário síncrona
É redirecionado	Suportado
O usuário está inativo por um tempo/detecção de silêncio	Suportado	Tempo limite de inatividade do usuário
Um plano se completa	Sem suporte
Resposta gerada por IA	Sem suporte
Se houver erro	Suportado	Manipula erros de orquestração

Passar variáveis entre tópicos e entre o modelo de linguagem

Quando você usa tópicos em um fluxo de conversa híbrido, entender como passar variáveis entre tópicos e o modelo de linguagem em tempo real é fundamental para criar interações confiáveis e com estado.

Essa funcionalidade funciona por meio do seguinte processo:

Você passa variáveis de entrada definidas em um tópico para o tópico no momento da invocação, para que o modelo de linguagem possa fornecer dados estruturados para o fluxo determinístico.
Você retorna variáveis de saída definidas em um tópico para o modelo de linguagem no final da execução do tópico como pares chave-valor estruturados. O modelo de linguagem inclui essas saídas no contexto da conversa, e você pode referenciá-las em turnos subsequentes.
As saídas de chamada de ferramenta seguem o mesmo padrão: você envia saídas para o modelo de linguagem no final da execução da ferramenta e elas estão disponíveis para uso futuro dentro da janela de contexto de conversa.
O modelo de linguagem é preenchido com contexto conversacional, incluindo pares de chave e valor produzidos pela saída de chamadas de ferramentas. No entanto, você só retorna variáveis de saída definidas explicitamente como dados estruturados. Você pode coletar um valor dentro de um tópico, como um número de conta verificado. Defina esse valor como uma saída. Se você não fizer isso, o modelo de idioma não conseguirá acessá-lo. O agente pode pedir ao chamador as mesmas informações novamente mais tarde.

Saiba mais em Gerenciar entradas e saídas de tópico.

Suporte multilíngue

Adicione todos os idiomas secundários desejados. Cadeias de caracteres de localização não são necessárias para fluxos em tempo real. No entanto, para mensagens de tópico determinísticas, você precisa fornecer as mensagens traduzidas. Saiba mais em Configurar e criar agentes multilíngues.

O modelo em tempo real pode entender e responder em muitos idiomas. No entanto, Microsoft não valida formalmente todos os idiomas para disponibilidade geral.

A partir de abril de 2026, os seguintes idiomas são validados formalmente:

Inglês (Estados Unidos) (en-US)
Espanhol (Estados Unidos) (es-US)
Árabe
Português (Brasil) (pt-BR)
Italiano (Itália) (it-IT)
Alemão (Alemanha) (de-DE)
Holandês (Países Baixos) (nl-NL)
Francês (Canadá) (fr-CA)

A Microsoft continua a validar outros idiomas e adicioná-los após a conclusão da certificação. Você pode adicionar qualquer idioma compatível com o Copilot Studio. No entanto, os idiomas que não são totalmente certificados para qualidade no nível de GA devem ser completamente testados antes da implantação de produção.

Importante

A funcionalidade de linguagem técnica não é igual a um idioma com suporte ou certificado. Se você pretende implantar agentes em idiomas diferentes do inglês, deverá realizar testes extensivos com chamadores do mundo real e fluxos de chamadas antes de entrar no ar.

Variáveis de contexto

Um agente de voz em tempo real dá suporte a variáveis de contexto que permitem que ele se comporte de forma mais inteligente carregando informações sobre a chamada, o chamador e a conversa atual. O sistema fornece automaticamente um conjunto limitado de contexto de chamada e conversa para o modelo em tempo de execução. Esse conjunto inclui:

Variável de contexto	Descrição
ID do Canal	Identifica o canal de comunicação usado para a interação. Essa identificação ajuda o modelo a entender que a conversa está ocorrendo em um canal de voz de fala para fala.
Número de telefone do chamador (ANI)	O número de telefone de origem do chamador. O sistema pode usar essas informações para dar suporte a cenários de identificação de chamador.
Número do destinatário do chamado (DNIS)	O número de telefone de destino que o chamador ligou. Essas informações ajudam a distinguir qual número de empresa ou ponto de acesso foi atingido.
ID da conversa	Um identificador exclusivo para a sessão de chamada ativa. Use esse valor para correlacionar e manter a continuidade em uma única conversa.
Cabeçalhos SIP	Um conjunto de pares chave-valor de cabeçalho SIP com suporte associados à chamada. O conjunto inclui apenas cabeçalhos não sensíveis e com suporte.
Data atual (UTC)	A data atual em UTC (Tempo Universal Coordenado), fornecida em runtime para permitir respostas com reconhecimento de data.
Hora atual (UTC)	O tempo atual em UTC (Tempo Universal Coordenado), fornecido no runtime para permitir respostas com reconhecimento de tempo.

Para todas as outras variáveis de contexto, siga as etapas descritas em Configurar variáveis de contexto para agentes.

Voz do agente

Selecione a voz que seu agente usa selecionando seu agente e vá para Configurações>Voz>Selecionar voz. Os agentes de voz em tempo real dão suporte às seguintes vozes:

Liga
Cinzas
Balada
Coral
Eco
Sage
Shimmer
Verse
Marin
Cedro

Note

A voz do agente é para o agente de voz em tempo real e não é a que está configurada no Centro de Administração do Copilot Service.
Para corresponder suas vozes de mensagem do sistema Dynamics com seu agente de voz em tempo real, use apenas as seguintes vozes com suporte: Alloy, Echo, Shimmer ou Ash.

Sensibilidade à fala

A detecção de atividade de voz sensível à fala (VAD) determina quando o agente deve responder depois que o chamador terminar de falar.

Noções básicas sobre os tipos de VAD

Os agentes de voz em tempo real dão suporte a duas abordagens de Detecção de Atividade Vocal (VAD):

Captura de tela da caixa de diálogo de sensibilidade de fala.

VAD baseado em servidor – Com base no som (silêncio)

Detecta o fim da fala com base em sinais de áudio (duração do silêncio, volume)
Responde rapidamente quando o silêncio é detectado
Comportamento determinístico e previsível
Melhor para interações estruturadas, respostas curtas, ambientes barulhentos

VAD semântico – Com base no contexto da frase

Determina a conclusão da curva com base no significado do que foi dito
Avalia se o chamador concluiu seu pensamento
Adapta-se a pausas naturais, vícios de linguagem, frases interrompidas
Melhor para: interações conversacionais, perguntas complexas, discussões abertas

Selecione o VAD certo

Use o VAD baseado em servidor quando todas as seguintes condições forem verdadeiras:

As interações são estruturadas (navegação no menu no estilo IVR).
As respostas são curtas e previsíveis.
O ruído de fundo é uma preocupação (a detecção automática de voz, ou VAD, semântica pode demorar muito).
Você quer uma troca de turnos rápida e eficiente.

Use VAD semântico quando todas as seguintes condições forem verdadeiras:

As conversas são abertas e sem conclusão definida.
Os chamadores podem hesitar ou usar palavras de preenchimento ("hum", "deixe-me pensar...").
As perguntas são complexas (os chamadores explicam situações).
O fluxo de conversa natural é priorizado.

Configurar o VAD baseado em servidor

Vá para Configurações>Voz>Configuração do Telefone>Entrada de Fala>Sensibilidade>Com base no som (silêncio).

Captura de tela da caixa de diálogo de sensibilidade de fala quando definida como Com base no som (silêncio).

Parâmetro	Descrição	Default	Intervalo recomendado
Limite	Sensibilidade à voz versus ruído (escala de 0 a 1)	0,6	0.5-0.7
Preenchimento de prefixo (ms)	Áudio capturado antes do início da fala	300 ms	200-500 ms
Duração do Silêncio (ms)	Silêncio necessário para encerrar a curva	750 ms	750-1000 ms

Limite

Mais baixo (0,3-0,4): mais sensível; detecta fala baixa, pode disparar em presença de ruído de fundo.
Superior (0.7-0.9): menos sensível; requer fala mais alta, reduz gatilhos falsos.
Recomendado: comece com 0,5; aumentará se o ruído de plano de fundo causar gatilhos falsos.

Preenchimento de prefixo

Captura áudio antes da detecção de fala (impede o corte da primeira palavra).
Menor (200 ms): resposta mais rápida; pode perder a primeira sílaba.
Maior (500 ms): captura mais segura; pequeno atraso.
Recomendado: 300 ms (bom equilíbrio).

Duração do silêncio

Por quanto tempo o chamador deve ficar em silêncio antes que o agente responda.
Baixo (500 ms): alternância de fala mais rápida; pode interromper se o chamador fizer uma pausa no meio da frase.
Maior (1000 ms): mais paciente; pode parecer lento.
Recomendado: comece com 750 ms.

Configurar VAD Semântico

Vá para Configurações>Voz>Configuração do Telefone>Entrada de Fala>Sensibilidade>Com Base no Contexto da Frase.

Captura de tela da caixa de diálogo Sensibilidade da Fala quando definida como Baseada no contexto da sentença.

Parâmetro: Rapidez (a rapidez com que o agente responde após a conclusão do sentido da frase)

Configurações	Behavior	Mais adequado para
Baixo	Espera mais, muito paciente	Chamadores que pensam em voz alta, pausas frequentes
Medium	Balanceado (padrão)	Conversas gerais
Alto	Responde rapidamente	Interações rápidas, perguntas simples

Configuração de DTMF

Multifrequência de Tom Duplo (DTMF) permite que os chamadores insiram informações usando o teclado de seus telefones.

Você pode ativar o DTMF para seu agente nos níveis de tópico e global. Para defini-lo no nível global, selecione seu agente e vá para Configurações>Voz>Comportamento de Conversa>DTMF.

Para defini-la por nó de tópico, saiba mais em Ativar o suporte DTMF para seu agente ativado por voz.

Para dar suporte à conclusão de entrada confiável, você pode configurar a temporização de DTMF e o comportamento de terminação. Essa configuração inclui um tempo limite entre dígitos, que define quanto tempo o sistema aguarda entre pressionamentos de tecla e um caractere de terminação opcional (como # ou *) que sinaliza explicitamente o fim da entrada. Quando você usa um caractere de terminação, o sistema processa a entrada imediatamente sem esperar um tempo limite.

Detecção de silêncio

A detecção de silêncio permite que agentes de voz em tempo real reconheçam quando um chamador não fornece nenhuma entrada para um período especificado. Configure a detecção de silêncio como uma configuração global de voz para o agente acessando Configurações>Voz>Comportamento de Conversa>Detecção de Silêncio.

O temporizador de silêncio começa quando o agente termina de falar e não detecta nenhuma entrada de fala ou DTMF do chamador. Se o tempo limite de silêncio for atingido, o agente seguirá o que está especificado no tópico de detecção de silêncio configurado.

Importante

A detecção de silêncio não está ativada por padrão. Se o usuário não falar, o agente aguardará indefinidamente sem solicitar. Ative explicitamente a detecção de silêncio e configure uma mensagem de nova solicitação para lidar com chamadores silenciosos.
O tempo limite padrão de detecção de silêncio é de 7.000 ms (7 segundos). Valide este valor de acordo com o seu caso de uso específico e o ambiente do chamador antes de implantar em produção. Sete segundos podem parecer muito longos para alguns chamadores ou muito curtos para outros, dependendo da natureza da interação, por exemplo, perguntas complexas ou ambientes barulhentos. Teste com dados de chamada do mundo real para determinar o limite apropriado para seu cenário.
Antes de habilitar a detecção de silêncio, verifique se o comportamento configurado no tópico de detecção de silêncio (por exemplo, Escalonar, Desligar, Repromptar) é intencional e apropriado para seu caso de uso. O comportamento de fallback configurado incorretamente, como definir inadvertidamente o fallback para Escalonar quando a intenção é desligar ou vice-versa, pode levar a resultados inesperados nas chamadas.

Mensagens de latência

Adicione uma mensagem de latência ou música ao agente quando as operações em segundo plano levarem mais tempo do que o esperado. Para configurar a mensagem de latência, acesse Configurações>Voz>Comportamento de Conversa>Mensagens de Latência.

Avaliação do agente de voz em tempo real (versão prévia)

Os agentes de voz em tempo real dão suporte ao envio de texto durante a avaliação, no entanto, o processamento de áudio não é compatível.

Comentários

Esta página foi útil?

Last updated on 2026-05-20

Configurar agentes de voz em tempo real

Configurar e habilitar a voz em tempo real

Conhecimento e ferramentas

Agentes aninhados (versão prévia)

Tópicos

Práticas recomendadas ao usar tópicos com agentes de voz em tempo real

Suporte ao nó do Tópico

Nó Condição

Nó de mensagem

Nó de pergunta

Nó HTTP

Nó de ferramenta

Definir nó do valor da variável

Nó de gerenciamento de tópicos

Nó Transferir conversa

Avançado

Suporte ao disparador do sistema

Passar variáveis entre tópicos e entre o modelo de linguagem

Suporte multilíngue

Variáveis de contexto

Voz do agente

Sensibilidade à fala

Noções básicas sobre os tipos de VAD

Selecione o VAD certo

Configurar o VAD baseado em servidor

Limite

Preenchimento de prefixo

Duração do silêncio

Configurar VAD Semântico

Configuração de DTMF

Detecção de silêncio

Mensagens de latência

Avaliação do agente de voz em tempo real (versão prévia)

Comentários

Recursos adicionais