Criar um agente capaz de falar

Concluído

Observação

Consulte a guia Texto e imagens para obter mais detalhes!

Os agentes de IA são programas de software que conseguem compreender informação, tomar decisões e agir por si próprios para ajudar os utilizadores a alcançar objetivos específicos. Um objetivo comum dos agentes de IA é conseguir conduzir conversas faladas em tempo real, tal como faria com um humano.

Conversão de fala para fala é uma funcionalidade que permite a uma aplicação receber áudio falado como entrada e produzir áudio falado como saída, sem que o utilizador precise de ler ou digitar texto. A experiência do utilizador parece uma conversa de voz natural.

A conversão de fala para fala permite que os sistemas:

  • Ouve uma pessoa a falar
  • Compreender ou transformar o que foi dito
  • Responder com fala sintética

A fala para fala combina voz para texto e texto para fala numa única experiência conversacional. A conversão de fala para fala é construída como uma cadeia de processamento de capacidades de fala e linguagem. O pipeline é concluído.

  1. Voz para Texto: Converter o áudio falado do utilizador em texto.
  2. Processamento ou raciocínio: Analisar, traduzir e resumir o texto, ou ser usado por um agente de IA para decidir o que dizer a seguir.
  3. Texto para Fala: Transformar o texto da resposta novamente em áudio falado.

Cenários comuns de conversão de fala para fala incluem:

  • Assistentes de voz e agentes de IA: Os utilizadores falam com um agente e ouvem respostas faladas.
  • Tradução de fala: Um utilizador fala numa língua e ouve a resposta noutra.
  • Aplicações mãos-livres: Sistemas de navegação, quiosques ou ferramentas industriais onde digitar não é prático.
  • Acessibilidade: Interação baseada em voz para utilizadores que preferem ou necessitam de entrada e saída de áudio.
  • Bots de apoio ao cliente: Os chamadores falam naturalmente e recebem respostas faladas.

Azure Speech - Voz ao Vivo

Azure Speech inclui um serviço VoiceLive que facilita a construção de agentes conversacionais. A API Voice Live permite que as aplicações tenham conversas de voz em tempo real. Permite que um agente de voz ouça alguém a falar e responda com áudio falado de forma rápida e natural.

Em vez de construir e ligar muitas partes separadas — como voz para texto, raciocínio de IA e texto para voz — a API Voice Live combina tudo num só serviço. A API Voice Live torna mais fácil e rápido para os programadores criarem experiências baseadas em voz.

Azure gere totalmente o VoiceLive, o que significa que não precisas de configurar ou manter os sistemas backend por ti próprio. Quando envias áudio para o VoiceLive, ele responde com respostas faladas. O VoiceLive também pode devolver elementos visuais, como avatares, e ativar ações quando necessário. O Azure trata dos modelos e da infraestrutura nos bastidores, por isso podes focar-te em construir a experiência de voz.

As soluções de fala do Azure utilizam:

  • Azure Speech que oferece funcionalidades de conversão de fala para texto e de texto para fala.
  • Agentes ou lógica de aplicação que toma decisões sobre respostas.
  • Ferramentas Foundry ou servidores MCP que podem expor a fala como ferramentas que podem ser chamadas, para que os agentes não lidem diretamente com SDKs ou APIs.

Pode explorar o Voice Live num ambiente de teste no portal Foundry. O Foundry playground inclui algumas amostras de voz pré-configuradas que pode experimentar, ou pode criar uma nova solução própria. Quando cria uma solução, é importante escolher um modelo de IA generativa para o seu agente utilizar. Azure Speech Voice Live utiliza o modelo de IA generativa juntamente com os seus próprios modelos acústicos para manter uma conversa ao vivo com o utilizador. Podes configurar muitas definições no playground. Por exemplo, pode ativar o envolvimento proativo, para que o agente possa iniciar conversas.

Captura de ecrã da voz ao vivo no ambiente de testes do Foundry.

Também pode ativar o modo Voice para um agente da Microsoft Foundry na área de testes, que integra o Azure Speech Voice Live na definição do agente. Esta abordagem significa que a configuração de voz está encapsulada no próprio agente, reduzindo o código cliente necessário para a utilizar.

Captura de ecrã de um agente com voz ativada.

Usar o Voice Live numa aplicação

Para desenvolver uma aplicação personalizada que use o agente, precisamos de escrever algum código. Para criar uma aplicação em Python, precisa do pacote azure-ai-voicelive.

O pacote pode ser instalado no terminal Visual Studio Code utilizando:

pip install azure-ai-voicelive

Observação

Também precisa de instalar pyaudio, python-dotenv, e azure-identity para executar a sua aplicação Voice Live.

Pode encontrar código de exemplo para uma aplicação de conversão de fala-para-fala no portal Foundry. O código de exemplo trata de toda a lógica necessária para iniciar a sessão, ligar-se a dispositivos de áudio como microfones e colunas, processar os fluxos de áudio de entrada e saída, tratar de interrupções, e assim por diante. O código de exemplo é um bom ponto de partida para construir a tua própria aplicação.

Captura de ecrã da voz ao vivo no código de exemplo do Foundry playground.

Podes levar o código de exemplo para o teu próprio editor de código e instalar os pacotes adequados. Quando executa a aplicação, um assistente de voz em tempo real envia o áudio do seu microfone para o Azure Voice Live, recebe de volta a resposta falada do assistente e reproduz através dos seus altifalantes.

Captura de ecrã do resultado do script VoiceLive Python.

Voice Live in Azure Speech oferece uma forma eficaz de construir agentes conversacionais com capacidade de fala que interagem naturalmente com os utilizadores. De seguida, experimenta tu próprio o Azure Speech - Voice Live no Foundry.