Introdução

Concluído

As capacidades de fala por IA permitem-nos gerir sistemas com instruções de voz, obter respostas dos computadores para perguntas faladas, gerar legendas a partir de áudio e muito mais. As interfaces baseadas em voz oferecem uma forma mais natural de interagir com software de IA. A capacidade de interagir através da linguagem falada pode aumentar a acessibilidade e inclusão das aplicações e agentes.

Para permitir esse tipo de interação, o sistema de IA deve suportar pelo menos dois recursos:

  • Reconhecimento de fala: a capacidade de detetar e interpretar a entrada falada
  • Síntese de fala: a capacidade de gerar saída falada

Exemplos destas capacidades incluem:

  • Ditado clínico e tomada de notas na área da saúde: Os médicos podem dizer as notas dos pacientes em voz alta durante ou após consultas. Uma aplicação de fala com IA converte o áudio em texto médico preciso, reduzindo a digitação manual e poupando tempo.

  • Transcrição de chamadas no apoio ao cliente: Os centros de contacto transcrevem as chamadas dos clientes em tempo real, facilitando a revisão de conversas, a deteção de problemas e a análise de sentimentos.

  • Legendagem automatizada nos media e entretenimento: As plataformas de vídeo geram legendas ao vivo ou gravadas para programas e streams, melhorando a acessibilidade e apoiando audiências multilíngues.

  • Feedback sobre aprendizagem de línguas e pronúncia na educação: As aplicações de aprendizagem utilizam capacidades de fala por IA para ouvir os alunos falar e fornecer feedback sobre a pronúncia, ajudando os alunos a praticar e melhorar as competências da linguagem oral.

  • Assistentes com voz no comércio a retalho e comércio eletrónico: Os assistentes virtuais de compras usam reconhecimento de voz para compreender pedidos falados de clientes e texto para fala para responder com informações do produto ou estado da encomenda.

O Azure Speech na Microsoft Foundry Tools oferece capacidades de voz para texto, texto para voz e tradução de voz através do reconhecimento e síntese de voz. Você pode usar modelos de serviço de fala pré-criados e personalizados para uma variedade de tarefas, desde transcrever áudio para texto com alta precisão, até identificar alto-falantes em conversas, criar vozes personalizadas e muito mais. De seguida, aprenda como incorporar o reconhecimento de voz numa aplicação com o Azure Speech.

Observação

Reconhecemos que pessoas diferentes gostam de aprender de maneiras diferentes. Pode optar por completar este módulo em formato de vídeo ou pode ler o conteúdo como texto e imagens. O texto contém mais detalhes do que os vídeos, portanto, em alguns casos, você pode querer se referir a ele como material complementar à apresentação do vídeo.