Extracción de información de audio y vídeo

Completado

Sugerencia

Consulte la pestaña Texto e imágenes para obtener más detalles.

La información empresarial se encuentra cada vez más en formatos multimedia, como archivos de audio y vídeo. Por ejemplo, las empresas suelen grabar llamadas para analizarlas más adelante. El crecimiento de las videoconferencias significa que la información útil se captura a menudo en reuniones grabadas. Azure Content Understanding admite la extracción y el análisis de datos de audio y vídeo.

Extracción de datos estructurados de audio

Puede usar Azure Content Understanding para proporcionar transcripciones, resúmenes y otras conclusiones clave de los archivos de audio.

Supongamos que desea que la inteligencia artificial resuma el correo de voz. Puede definir un esquema de información clave para extraer de cada llamada grabada, de la siguiente manera:

  • Llamante
  • Resumen de mensajes
  • Acciones solicitadas
  • Número de devolución de llamada
  • Detalles de contacto alternativos

Supongamos que un autor de la llamada le deja el siguiente mensaje de voz:

Hi, this is Ava from Contoso.

Just calling to follow up on our meeting last week.

I wanted to let you know that I've run the numbers and I think we can meet your price expectations.

Please call me back on 555-12345 or send me an e-mail at Ava@contoso.com and we'll discuss next steps.

Thanks, bye!

El uso de Azure Content Understanding para analizar la grabación de audio y aplicar el esquema genera los siguientes resultados:

  • Autor de la llamada: Ava de Contoso
  • Resumen de mensajes: Ava de Contoso llamó para realizar un seguimiento de una reunión y mencionó que pueden cumplir las expectativas de precio. Solicitaron una devolución de llamada o un correo electrónico para analizar los pasos siguientes.
  • Acciones solicitadas: vuelva a llamar o envíe un correo electrónico para analizar los pasos siguientes.
  • Número de devolución de llamada: 555-12345
  • Detalles de contacto alternativos: Ava@contoso.com

Análisis de audio en el portal de Foundry

Al igual que con el análisis de documentos, el uso de Content Understanding en el nuevo portal de Foundry es una manera rápida de validar que el analizador devuelve los campos que espera antes de automatizar el flujo de trabajo en el código.

En el portal, puede hacer lo siguiente:

  • Seleccione un analizador de audio o vídeo y ejecútelo en un archivo multimedia.
  • Revise las salidas, como las transcripciones (para audio) y extraiga información basada en el esquema.
  • Vea los resultados JSON devueltos para su posterior procesamiento en sistemas posteriores.

Echemos un vistazo a cómo podemos usar la comprensión del contenido para analizar una grabación de llamadas. En lugar de escuchar toda la llamada, puede ejecutar el analizador de audio precompilado para extraer información del audio. Cuando se realiza el análisis, puede ver una transcripción escrita de la llamada.

Captura de pantalla del nuevo portal Foundry con audio analizado mediante Azure Content Understanding.

En los resultados devueltos, puede ver información específica de la llamada. Al igual que con otros analizadores en la comprensión del contenido, los resultados están en formato JSON para su posterior procesamiento.

Captura de pantalla del nuevo portal de Foundry donde se analiza el audio y se devuelve JSON.

Extracción de datos estructurados del vídeo

Azure Content Understanding también admite el análisis de vídeo. Por ejemplo, podría analizar una videoconferencia grabada para extraer detalles de asistencia, ubicación y otra información.

Echemos un vistazo primero a una imagen de la cámara de la sala de conferencias. Supongamos que definió el esquema siguiente:

  • Ubicación
  • Asistentes en persona
  • Asistentes remotos
  • Total de asistentes

Puede usar Azure Content Understanding para analizar una imagen de la cámara de la sala de conferencias:

Fotografía de una persona en una sala de conferencias en una llamada con tres asistentes remotos.

Después de aplicar el esquema a la imagen, Azure Content Understanding devolvió datos estructurados:

  • Ubicación: Sala de conferencias
  • Asistentes en persona: 1
  • Asistentes remotos: 3
  • Total de asistentes: 4

Tenga en cuenta lo que puede agregar al esquema para una grabación de vídeo de la reunión. Puede incluir recuentos de asistencia en varios intervalos de tiempo, detalles de quién habló durante la llamada y lo que dijeron, un resumen de la discusión y una lista de acciones asignadas de la reunión.

Creación de una aplicación cliente con analizadores de audio o vídeo

Para analizar audio o vídeo mediante programación, puede crear una aplicación cliente ligera mediante Content Understanding API.

Echemos un vistazo a un ejemplo mediante el SDK de Python. Al ejecutar el código siguiente, analiza un archivo de audio mediante un analizador precompilado. El analizador precompilado se identifica como prebuilt-audioSearch.

import os
from azure.ai.contentunderstanding import ContentUnderstandingClient
from azure.core.credentials import AzureKeyCredential

# Endpoint and key for your Foundry resource
endpoint = os.environ["FOUNDRY_ENDPOINT"]  # e.g., "https://<resource>.services.ai.azure.com/"
key = os.environ["FOUNDRY_KEY"]

client = ContentUnderstandingClient(
    endpoint=endpoint,
    credential=AzureKeyCredential(key)
)

# Choose a prebuilt analyzer for audio
# (The documents module lists examples like prebuilt-audioSearch / prebuilt-videoSearch.)
analyzer_id = "prebuilt-audioSearch"

# Provide an input audio file (URL shown here; you can swap in your own accessible media URL)
inputs = [
    {"url": "https://<your-host>/samples/voicemail.wav"}
]

# Start analysis (asynchronous long-running operation)
poller = client.begin_analyze(analyzer_id=analyzer_id, inputs=inputs)

# Wait for completion (SDK polls under the hood)
result = poller.result()

# Inspect the structured output (JSON-like objects)
for content in result.contents:
    # Some analyzers may return a transcript and/or extracted fields depending on the analyzer and schema
    print("=== MARKDOWN / TRANSCRIPT (if provided) ===")
    print(getattr(content, "markdown", None))

    print("\n=== EXTRACTED FIELDS ===")
    print(getattr(content, "fields", None))

Análisis de audio y vídeo con comprensión de contenido en Microsoft Foundry abre una amplia gama de oportunidades para desbloquear el potencial de los datos empresariales en cualquier formato. A continuación, pruebe Content Understanding para usted mismo.