Extrair informação de áudio e vídeo

Concluído

Observação

Consulte a guia Texto e imagens para obter mais detalhes!

A informação empresarial é cada vez mais encontrada em formatos multimédia, como ficheiros de áudio e vídeo. Por exemplo, as empresas frequentemente gravam chamadas para as analisar mais tarde. O crescimento da videoconferência significa que informações úteis são frequentemente captadas em reuniões gravadas. O Azure Content Understanding suporta a extração e análise de dados de áudio e vídeo.

Extração de dados estruturados a partir de áudio

Pode usar o Azure Content Understanding para fornecer transcrições, resumos e outros insights importantes a partir de ficheiros áudio.

Suponha que pretende que a IA resuma o seu correio de voz. Você pode definir um esquema de insights importantes para extrair de cada chamada gravada, da seguinte forma:

  • Autor da chamada
  • Resumo da mensagem
  • Ações solicitadas
  • Número para retorno de chamada
  • Dados de contacto alternativos

Agora suponha, um chamador deixa a seguinte mensagem de voz:

Hi, this is Ava from Contoso.

Just calling to follow up on our meeting last week.

I wanted to let you know that I've run the numbers and I think we can meet your price expectations.

Please call me back on 555-12345 or send me an e-mail at Ava@contoso.com and we'll discuss next steps.

Thanks, bye!

Usar o Azure Content Understanding para analisar a gravação áudio e aplicar o seu esquema produz os seguintes resultados:

  • Chamador: Ava da Contoso
  • Resumo da mensagem: Ava da Contoso ligou para acompanhar uma reunião e mencionou que eles podem atender às expectativas de preço. Pediram uma chamada de retorno ou um email para discutir os próximos passos.
  • Ações solicitadas: ligue de volta ou envie um e-mail para discutir as próximas etapas.
  • Número de retorno: 555-12345
  • Dados de contacto alternativos: Ava@contoso.com

Análise de áudio no portal da Foundry

Tal como na análise de documentos, usar o Content Understanding no portal clássico do Foundry é uma forma rápida de validar que o seu analisador devolve os campos que espera antes de automatizar o fluxo de trabalho em código.

No portal, você pode:

  • Seleciona um analisador de áudio ou vídeo e executa-o num ficheiro multimédia.
  • Revise resultados como transcrições (para áudio) e insights extraídos com base no seu esquema.
  • Consulte os resultados JSON retornados para processamento posterior em sistemas a jusante.

Vamos analisar como podemos usar a compreensão de conteúdo para analisar a gravação de uma chamada. Em vez de ouvir toda a chamada, pode usar o analisador de áudio pré-construído para extrair informação do áudio. Quando a análise termina, pode ver uma transcrição escrita da chamada.

Captura de ecrã do portal clássico da Foundry com áudio analisado com o Azure Content Understanding.

Nos resultados devolvidos, pode ver informações específicas da chamada. Tal como outros analisadores em compreensão de conteúdos, os resultados estão em formato JSON para processamento adicional.

Captura de ecrã do clássico portal Foundry onde o áudio é analisado e o JSON é devolvido.

Extração de dados estruturados a partir de vídeo

O Azure Content Understanding também suporta análise de vídeo. Por exemplo, pode analisar uma videoconferência gravada para extrair detalhes de assiduidade, localização e outras informações.

Vamos primeiro olhar para uma imagem da câmara da sala de reuniões. Suponha que definiste o seguinte esquema:

  • Localização
  • Participantes presenciais
  • Participantes remotos
  • Total de participantes

Pode usar o Azure Content Understanding para analisar uma imagem da câmara da sala de reuniões:

Fotografia de uma pessoa numa sala de conferências numa chamada com três participantes remotos.

Após aplicar o esquema à imagem, o Azure Content Understanding devolveu dados estruturados:

  • Local: Sala de conferências
  • Participantes presenciais: 1
  • Participantes remotos: 3
  • Total de participantes: 4

Considere o que poderia acrescentar ao esquema para uma gravação em vídeo da reunião. Pode incluir contagens de presenças em vários intervalos de tempo, detalhes de quem falou durante a chamada e o que disseram, um resumo da discussão e uma lista das ações atribuídas na reunião.

Construir uma aplicação cliente com analisadores de áudio ou vídeo

Para analisar áudio ou vídeo programáticamente, pode construir uma aplicação cliente leve usando a API de Compreensão de Conteúdo.

Vamos dar uma vista de olhos a um exemplo usando o SDK em Python. Quando executas o código seguinte, ele analisa um ficheiro de áudio usando um analisador pré-construído. O analisador pré-construído é identificado como prebuilt-audioSearch.

import os
from azure.ai.contentunderstanding import ContentUnderstandingClient
from azure.core.credentials import AzureKeyCredential

# Endpoint and key for your Foundry resource
endpoint = os.environ["FOUNDRY_ENDPOINT"]  # e.g., "https://<resource>.services.ai.azure.com/"
key = os.environ["FOUNDRY_KEY"]

client = ContentUnderstandingClient(
    endpoint=endpoint,
    credential=AzureKeyCredential(key)
)

# Choose a prebuilt analyzer for audio
# (The documents module lists examples like prebuilt-audioSearch / prebuilt-videoSearch.)
analyzer_id = "prebuilt-audioSearch"

# Provide an input audio file (URL shown here; you can swap in your own accessible media URL)
inputs = [
    {"url": "https://<your-host>/samples/voicemail.wav"}
]

# Start analysis (asynchronous long-running operation)
poller = client.begin_analyze(analyzer_id=analyzer_id, inputs=inputs)

# Wait for completion (SDK polls under the hood)
result = poller.result()

# Inspect the structured output (JSON-like objects)
for content in result.contents:
    # Some analyzers may return a transcript and/or extracted fields depending on the analyzer and schema
    print("=== MARKDOWN / TRANSCRIPT (if provided) ===")
    print(getattr(content, "markdown", None))

    print("\n=== EXTRACTED FIELDS ===")
    print(getattr(content, "fields", None))

A análise de áudio e vídeo com compreensão de conteúdos na Microsoft Foundry abre uma vasta gama de oportunidades para desbloquear o potencial dos dados empresariais em qualquer formato. De seguida, experimente Aprendizagem de Conteúdo por si mesmo.