Configurar agentes de voz em tempo real

[Este artigo faz parte da documentação de pré-lançamento e está sujeito a alterações.]

Configure um agente de voz em tempo real ativando a voz em tempo real, definindo opções principais e configurando recursos como tópicos, suporte multilíngue, DTMF e detecção de silêncio.

Configurar e habilitar a voz em tempo real

  1. Crie um novo agente e configure seus detalhes básicos, como um nome descritivo e a finalidade do agente na descrição.

  2. Vá para as configurações de Voz do agente e ative Habilitar voz e, em seguida, no tipo de voz, selecione voz em tempo real. Saiba mais em Escolher como lidar com a fala.

    Importante

    Esta é uma seleção única. Depois de selecionar a voz em tempo real, você não poderá alternar de volta para a voz Básica. Para usar a voz Básica, crie um novo agente.

    Captura de tela das Configurações de um agente, realçando a configuração de voz em tempo real.

  3. Vá para as configurações de Segurança do agente e selecione Nenhuma Autenticação.

Conhecimento e ferramentas

Você pode configurar seu agente para usar o conhecimento e as ferramentas. Saiba mais em Resumo de fontes de conhecimento, adicionar ferramentas a agentes personalizados e ferramentas, conhecimento, MCP e API.

Agentes aninhados (versão prévia)

Os agentes de voz em tempo real só dão suporte a agentes filho.

Importante

Certifique-se de que as descrições dos subagentes não se sobreponham às descrições dos tópicos. Defina explicitamente a ordem de invocação nas instruções do agente.

Tópicos

Os agentes de voz em tempo real dão suporte a todos os tópicos configurados no Copilot Studio. Use tópicos para definir comportamentos determinísticos, como saudações, regras de negócios e escalonamento, enquanto o modelo de voz em tempo real gerencia respostas de conversação em runtime. Saiba mais em Escolher como controlar a conversa.

Práticas recomendadas ao usar tópicos com agentes de voz em tempo real

  • Use tópicos somente quando o comportamento determinístico for necessário.

  • Use texto estático em mensagens de saudação para a primeira resposta mais rápida. Mensagens dinâmicas com variáveis e expressões aumentam a latência inicial.

  • O Início da Conversa está habilitado por padrão. Se você quiser que o modelo de voz em tempo real manipule a saudação, desabilite o tópico Início da Conversa; caso contrário, a saudação configurada no tópico Início da Conversa será reproduzida em vez da saudação do modelo de voz.

  • Deixe o modelo de voz em tempo real lidar com a conversa geral e perguntas de acompanhamento.

  • O tópico On Error deve incluir uma ação explícita, como transferência ou encerrar chamada. O tratamento de erros baseado apenas em mensagens não é suficiente. Sem uma próxima etapa determinística, os clientes podem experimentar silêncio ou chamadas paralisadas, levando a confusão e experiências de voz ruins.

  • Use descrições explícitas de tópicos e ferramentas para declarar a propriedade da coleta de dados. Saiba mais em Escrever tópicos efetivos e descrições de ferramentas.

Suporte ao nó do Tópico

A lista a seguir descreve o suporte a tópicos em agentes de voz em tempo real:

Nó Condição

Característica Suporte
Ramificação If/Else Com suporte
Expressões do Power Fx Com suporte
Reprocessamento de preenchimento de slot Com suporte

Nó de mensagem

Recurso Suporte
Mensagem básica Com suporte
Variações de mensagem Suportado
Inserção de variável Suportado
SSML Com suporte
Mídia Avançada/Cartões Adaptáveis Não aplicável
Respostas Rápidas Não aplicável

Nó de pergunta

Característica Suporte
Texto de comando Suportado
Retenção automática Sem suporte
Preenchimento de slot Suportado
Ignorar comportamento/Preenchimento automático de slot Suportado
Reprompt/Tentar novamente Suportado
Tratamento de resposta inválido Suportado
Interrupção do tópico Suportado
Interrupção Suportado
Mensagem de reprompt personalizada Suportado
Entrada DTMF Suportado
Detecção de silêncio Suportado

Nó HTTP

Recurso Suporte
Métodos HTTP: GET, POST, PUT, PATCH, DELETE Com suporte
Pontos de extremidade de URL Com suporte
Cabeçalhos e cargas Com suporte
Análise de resposta e esquema Com suporte
Mapeamento de variável Com suporte
Tratamento de erros Com suporte

Nó de ferramenta

Característica Suporte
Fluxo do Power Automate Suportado
Invocação de ferramenta Suportado
Mapeamento de entrada/saída Suportado
Novo prompt Suportado

Definir nó do valor da variável

Recurso Suporte
Atribuição literal Com suporte
Atribuição de expressão Com suporte
De variável para variável Com suporte

Nó de gerenciamento de tópicos

Recurso Suporte
Fim do tópico atual Com suporte
Encerrar todos os tópicos Com suporte
Encerrar a conversa Com suporte
Ir para a etapa Com suporte
Entrada do usuário para identificar intenção Com suporte
Ir para outro tópico Com suporte

Nó Transferir conversa

Recurso Suporte
Transferir para o agente Com suporte
Transferência de número de telefone externo Com suporte

Avançado

Característica Suporte
Criar respostas gerativas Com suporte

Suporte ao disparador do sistema

Gatilho Suporte Detalhes
No início da conversa Suportado Aciona quando uma nova conversa começa
Em Conversa com o representante Suportado Transferências para o agente humano
Tópico desconhecido/sobre intenção desconhecida Sem suporte Fallback quando nenhum tópico for correspondente
OnSelectIntent (vários tópicos correspondentes) Sem suporte Desambiguação entre tópicos semelhantes
Reiniciar conversa (OnSystemRedirect) Suportado Limpa variáveis e reinicia o fluxo
Na Entrada Sem suporte
Tecla DTMF desconhecida Suportado Entrada de teclado não mapeada
O agente escolhe/O usuário diz uma frase Suportado Agente seleciona tópico com base na intenção
Uma mensagem foi recebida Sem suporte Aumenta a latência
Um evento de cliente personalizado ocorre Sem suporte Somente no início da sessão
A atualização da conversa Sem suporte Membros adicionados ou removidos, alterações de sessão
É invocado Sem suporte Requer interface do usuário síncrona
É redirecionado Suportado
O usuário está inativo por um tempo/detecção de silêncio Suportado Tempo limite de inatividade do usuário
Um plano se completa Sem suporte
Resposta gerada por IA Sem suporte
Se houver erro Suportado Manipula erros de orquestração

Passar variáveis entre tópicos e entre o modelo de linguagem

Quando você usa tópicos em um fluxo de conversa híbrido, entender como passar variáveis entre tópicos e o modelo de linguagem em tempo real é fundamental para criar interações confiáveis e com estado.

Essa funcionalidade funciona por meio do seguinte processo:

  • Você passa variáveis de entrada definidas em um tópico para o tópico no momento da invocação, para que o modelo de linguagem possa fornecer dados estruturados para o fluxo determinístico.

  • Você retorna variáveis de saída definidas em um tópico para o modelo de linguagem no final da execução do tópico como pares chave-valor estruturados. O modelo de linguagem inclui essas saídas no contexto da conversa, e você pode referenciá-las em turnos subsequentes.

  • As saídas de chamada de ferramenta seguem o mesmo padrão: você envia saídas para o modelo de linguagem no final da execução da ferramenta e elas estão disponíveis para uso futuro dentro da janela de contexto de conversa.

  • O modelo de linguagem é preenchido com contexto conversacional, incluindo pares de chave e valor produzidos pela saída de chamadas de ferramentas. No entanto, você só retorna variáveis de saída definidas explicitamente como dados estruturados. Você pode coletar um valor dentro de um tópico, como um número de conta verificado. Defina esse valor como uma saída. Se você não fizer isso, o modelo de idioma não conseguirá acessá-lo. O agente pode pedir ao chamador as mesmas informações novamente mais tarde.

Saiba mais em Gerenciar entradas e saídas de tópico.

Suporte multilíngue

Adicione todos os idiomas secundários desejados. Cadeias de caracteres de localização não são necessárias para fluxos em tempo real. No entanto, para mensagens de tópico determinísticas, você precisa fornecer as mensagens traduzidas. Saiba mais em Configurar e criar agentes multilíngues.

O modelo em tempo real pode entender e responder em muitos idiomas. No entanto, Microsoft não valida formalmente todos os idiomas para disponibilidade geral.

A partir de abril de 2026, os seguintes idiomas são validados formalmente:

  • Inglês (Estados Unidos) (en-US)
  • Espanhol (Estados Unidos) (es-US)
  • Árabe
  • Português (Brasil) (pt-BR)
  • Italiano (Itália) (it-IT)
  • Alemão (Alemanha) (de-DE)
  • Holandês (Países Baixos) (nl-NL)
  • Francês (Canadá) (fr-CA)

A Microsoft continua a validar outros idiomas e adicioná-los após a conclusão da certificação. Você pode adicionar qualquer idioma compatível com o Copilot Studio. No entanto, os idiomas que não são totalmente certificados para qualidade no nível de GA devem ser completamente testados antes da implantação de produção.

Importante

A funcionalidade de linguagem técnica não é igual a um idioma com suporte ou certificado. Se você pretende implantar agentes em idiomas diferentes do inglês, deverá realizar testes extensivos com chamadores do mundo real e fluxos de chamadas antes de entrar no ar.

Variáveis de contexto

Um agente de voz em tempo real dá suporte a variáveis de contexto que permitem que ele se comporte de forma mais inteligente carregando informações sobre a chamada, o chamador e a conversa atual. O sistema fornece automaticamente um conjunto limitado de contexto de chamada e conversa para o modelo em tempo de execução. Esse conjunto inclui:

Variável de contexto Descrição
ID do Canal Identifica o canal de comunicação usado para a interação. Essa identificação ajuda o modelo a entender que a conversa está ocorrendo em um canal de voz de fala para fala.
Número de telefone do chamador (ANI) O número de telefone de origem do chamador. O sistema pode usar essas informações para dar suporte a cenários de identificação de chamador.
Número do destinatário do chamado (DNIS) O número de telefone de destino que o chamador ligou. Essas informações ajudam a distinguir qual número de empresa ou ponto de acesso foi atingido.
ID da conversa Um identificador exclusivo para a sessão de chamada ativa. Use esse valor para correlacionar e manter a continuidade em uma única conversa.
Cabeçalhos SIP Um conjunto de pares chave-valor de cabeçalho SIP com suporte associados à chamada. O conjunto inclui apenas cabeçalhos não sensíveis e com suporte.
Data atual (UTC) A data atual em UTC (Tempo Universal Coordenado), fornecida em runtime para permitir respostas com reconhecimento de data.
Hora atual (UTC) O tempo atual em UTC (Tempo Universal Coordenado), fornecido no runtime para permitir respostas com reconhecimento de tempo.

Para todas as outras variáveis de contexto, siga as etapas descritas em Configurar variáveis de contexto para agentes.

Voz do agente

Selecione a voz que seu agente usa selecionando seu agente e vá para Configurações>Voz>Selecionar voz. Os agentes de voz em tempo real dão suporte às seguintes vozes:

  • Liga
  • Cinzas
  • Balada
  • Coral
  • Eco
  • Sage
  • Shimmer
  • Verse
  • Marin
  • Cedro

Note

  • A voz do agente é para o agente de voz em tempo real e não é a que está configurada no Centro de Administração do Copilot Service.
  • Para corresponder suas vozes de mensagem do sistema Dynamics com seu agente de voz em tempo real, use apenas as seguintes vozes com suporte: Alloy, Echo, Shimmer ou Ash.

Sensibilidade à fala

A detecção de atividade de voz sensível à fala (VAD) determina quando o agente deve responder depois que o chamador terminar de falar.

Noções básicas sobre os tipos de VAD

Os agentes de voz em tempo real dão suporte a duas abordagens de Detecção de Atividade Vocal (VAD):

Captura de tela da caixa de diálogo de sensibilidade de fala.

VAD baseado em servidor – Com base no som (silêncio)

  • Detecta o fim da fala com base em sinais de áudio (duração do silêncio, volume)

  • Responde rapidamente quando o silêncio é detectado

  • Comportamento determinístico e previsível

  • Melhor para interações estruturadas, respostas curtas, ambientes barulhentos

VAD semântico – Com base no contexto da frase

  • Determina a conclusão da curva com base no significado do que foi dito

  • Avalia se o chamador concluiu seu pensamento

  • Adapta-se a pausas naturais, vícios de linguagem, frases interrompidas

  • Melhor para: interações conversacionais, perguntas complexas, discussões abertas

Selecione o VAD certo

Use o VAD baseado em servidor quando todas as seguintes condições forem verdadeiras:

  • As interações são estruturadas (navegação no menu no estilo IVR).

  • As respostas são curtas e previsíveis.

  • O ruído de fundo é uma preocupação (a detecção automática de voz, ou VAD, semântica pode demorar muito).

  • Você quer uma troca de turnos rápida e eficiente.

Use VAD semântico quando todas as seguintes condições forem verdadeiras:

  • As conversas são abertas e sem conclusão definida.

  • Os chamadores podem hesitar ou usar palavras de preenchimento ("hum", "deixe-me pensar...").

  • As perguntas são complexas (os chamadores explicam situações).

  • O fluxo de conversa natural é priorizado.

Configurar o VAD baseado em servidor

Vá para Configurações>Voz>Configuração do Telefone>Entrada de Fala>Sensibilidade>Com base no som (silêncio).

Captura de tela da caixa de diálogo de sensibilidade de fala quando definida como Com base no som (silêncio).

Parâmetro Descrição Default Intervalo recomendado
Limite Sensibilidade à voz versus ruído (escala de 0 a 1) 0,6 0.5-0.7
Preenchimento de prefixo (ms) Áudio capturado antes do início da fala 300 ms 200-500 ms
Duração do Silêncio (ms) Silêncio necessário para encerrar a curva 750 ms 750-1000 ms

Limite

  • Mais baixo (0,3-0,4): mais sensível; detecta fala baixa, pode disparar em presença de ruído de fundo.

  • Superior (0.7-0.9): menos sensível; requer fala mais alta, reduz gatilhos falsos.

  • Recomendado: comece com 0,5; aumentará se o ruído de plano de fundo causar gatilhos falsos.

Preenchimento de prefixo

  • Captura áudio antes da detecção de fala (impede o corte da primeira palavra).

  • Menor (200 ms): resposta mais rápida; pode perder a primeira sílaba.

  • Maior (500 ms): captura mais segura; pequeno atraso.

  • Recomendado: 300 ms (bom equilíbrio).

Duração do silêncio

  • Por quanto tempo o chamador deve ficar em silêncio antes que o agente responda.

  • Baixo (500 ms): alternância de fala mais rápida; pode interromper se o chamador fizer uma pausa no meio da frase.

  • Maior (1000 ms): mais paciente; pode parecer lento.

  • Recomendado: comece com 750 ms.

Configurar VAD Semântico

Vá para Configurações>Voz>Configuração do Telefone>Entrada de Fala>Sensibilidade>Com Base no Contexto da Frase.

Captura de tela da caixa de diálogo Sensibilidade da Fala quando definida como Baseada no contexto da sentença.

Parâmetro: Rapidez (a rapidez com que o agente responde após a conclusão do sentido da frase)

Configurações Behavior Mais adequado para
Baixo Espera mais, muito paciente Chamadores que pensam em voz alta, pausas frequentes
Medium Balanceado (padrão) Conversas gerais
Alto Responde rapidamente Interações rápidas, perguntas simples

Configuração de DTMF

Multifrequência de Tom Duplo (DTMF) permite que os chamadores insiram informações usando o teclado de seus telefones.

Você pode ativar o DTMF para seu agente nos níveis de tópico e global. Para defini-lo no nível global, selecione seu agente e vá para Configurações>Voz>Comportamento de Conversa>DTMF.

Para defini-la por nó de tópico, saiba mais em Ativar o suporte DTMF para seu agente ativado por voz.

Para dar suporte à conclusão de entrada confiável, você pode configurar a temporização de DTMF e o comportamento de terminação. Essa configuração inclui um tempo limite entre dígitos, que define quanto tempo o sistema aguarda entre pressionamentos de tecla e um caractere de terminação opcional (como # ou *) que sinaliza explicitamente o fim da entrada. Quando você usa um caractere de terminação, o sistema processa a entrada imediatamente sem esperar um tempo limite.

Detecção de silêncio

A detecção de silêncio permite que agentes de voz em tempo real reconheçam quando um chamador não fornece nenhuma entrada para um período especificado. Configure a detecção de silêncio como uma configuração global de voz para o agente acessando Configurações>Voz>Comportamento de Conversa>Detecção de Silêncio.

O temporizador de silêncio começa quando o agente termina de falar e não detecta nenhuma entrada de fala ou DTMF do chamador. Se o tempo limite de silêncio for atingido, o agente seguirá o que está especificado no tópico de detecção de silêncio configurado.

Importante

  • A detecção de silêncio não está ativada por padrão. Se o usuário não falar, o agente aguardará indefinidamente sem solicitar. Ative explicitamente a detecção de silêncio e configure uma mensagem de nova solicitação para lidar com chamadores silenciosos.

  • O tempo limite padrão de detecção de silêncio é de 7.000 ms (7 segundos). Valide este valor de acordo com o seu caso de uso específico e o ambiente do chamador antes de implantar em produção. Sete segundos podem parecer muito longos para alguns chamadores ou muito curtos para outros, dependendo da natureza da interação, por exemplo, perguntas complexas ou ambientes barulhentos. Teste com dados de chamada do mundo real para determinar o limite apropriado para seu cenário.

  • Antes de habilitar a detecção de silêncio, verifique se o comportamento configurado no tópico de detecção de silêncio (por exemplo, Escalonar, Desligar, Repromptar) é intencional e apropriado para seu caso de uso. O comportamento de fallback configurado incorretamente, como definir inadvertidamente o fallback para Escalonar quando a intenção é desligar ou vice-versa, pode levar a resultados inesperados nas chamadas.

Mensagens de latência

Adicione uma mensagem de latência ou música ao agente quando as operações em segundo plano levarem mais tempo do que o esperado. Para configurar a mensagem de latência, acesse Configurações>Voz>Comportamento de Conversa>Mensagens de Latência.

Captura de tela da caixa de diálogo Mensagens de Latência.

Avaliação do agente de voz em tempo real (versão prévia)

Os agentes de voz em tempo real dão suporte ao envio de texto durante a avaliação, no entanto, o processamento de áudio não é compatível.