Introducción
Las funcionalidades de voz de IA nos permiten administrar sistemas con instrucciones de voz, obtener respuestas de equipos para preguntas habladas, generar subtítulos a partir de audio y mucho más. Las interfaces basadas en voz proporcionan una manera más natural de interactuar con el software de inteligencia artificial. La capacidad de interactuar a través del lenguaje hablado puede aumentar la accesibilidad e inclusión de aplicaciones y agentes.
Para habilitar este tipo de interacción, el sistema de IA debe admitir al menos dos funciones:
- Reconocimiento de voz: la capacidad de detectar e interpretar la entrada hablada
- Síntesis de voz: la capacidad de generar salida de voz
Entre los ejemplos de estas funcionalidades se incluyen:
Dictado clínico y toma de notas en atención sanitaria: los médicos pueden decir notas del paciente en voz alta durante o después de las citas. Una aplicación de voz de IA convierte el audio en texto médico preciso, lo que reduce la escritura manual y ahorra tiempo.
Transcripción de llamadas en soporte técnico al cliente: los centros de contacto transcriben las llamadas de los clientes en tiempo real, lo que facilita la revisión de las conversaciones, la detección de problemas y el análisis de opiniones.
Subtítulos automatizados en medios y entretenimiento: las plataformas de vídeo generan subtítulos en vivo o grabados para espectáculos y transmisiones, mejorando la accesibilidad y el apoyo a audiencias multilingües.
Comentarios de aprendizaje y pronunciación en educación: las aplicaciones de aprendizaje usan funcionalidades de voz de IA para escuchar a los alumnos hablar y proporcionar comentarios de pronunciación, lo que ayuda a los alumnos a practicar y mejorar las aptitudes del lenguaje hablado.
Asistentes habilitados para voz en comercio minorista y comercio electrónico: los asistentes de compras virtuales usan el reconocimiento de voz para comprender las solicitudes de los clientes hablados y el texto a voz para responder con la información del producto o el estado del pedido.
Azure Speech en Microsoft Foundry Tools proporciona funcionalidades de conversión de voz a texto, texto a voz y traducción de voz a través del reconocimiento de voz y la síntesis. Puede usar modelos de servicio de voz precompilados y personalizados para una variedad de tareas, como transcribir audio a texto con alta precisión, identificar hablantes en conversaciones, crear voces personalizadas, etc. A continuación, aprenda a incorporar el reconocimiento de voz en una aplicación con Azure Speech.
Nota:
Reconocemos que a diferentes personas les gusta aprender de diferentes maneras. Puede optar por completar este módulo en formato basado en vídeo o puede leer el contenido como texto e imágenes. El texto contiene más detalle que los vídeos, por lo que, en algunos casos, es posible que desee hacer referencia a él como material complementario para la presentación de vídeo.