Modelos de geração de vídeo
Observação
Consulte a guia Texto e imagens para obter mais detalhes!
Para além das imagens estáticas, esperamos cada vez mais consumir conteúdo visual sob a forma de vídeo.
Utilização de modelos de geração de vídeo da Foundry
O Microsoft Foundry inclui modelos para geração de vídeo, que pode usar para criar conteúdo de vídeo original.
Os modelos de geração de vídeo na Foundry incluem:
- Sora 1: Sora é o primeiro modelo de texto para vídeo da OpenAI disponibilizado no Microsoft Foundry. Gera pequenos vídeos a partir de prompts de texto e pode também usar imagens como entrada para orientar a criação de vídeos. O Sora 1 suporta múltiplas resoluções e durações e é exposto através do Azure OpenAI Service e do Foundry Video Playground para experimentação.
Usos típicos:
- Vídeos conceptuais e storyboards
- Animações curtas a partir de descrições de texto
- Protótipagem visual para fluxos de trabalho criativos
Sora 2 (pré-visualização pública):O Sora 2 é o modelo de geração de vídeo de próxima geração em Foundry e representa uma melhoria significativa em relação ao Sora 1. Suporta múltiplas modalidades, incluindo: Texto → vídeo, Imagem → vídeo, Vídeo → vídeo (remix). O Sora 2 também introduz geração de áudio, realismo melhorado e capacidades de remixagem que permitem edições direcionadas em vez de regenerar um vídeo inteiro. Está disponível através da API Azure OpenAI v1 e do Foundry Video Playground, com salvaguardas incorporadas de IA responsável.
Usos típicos:
- Vídeos de marketing e promocionais
- Previsões cinematográficas e trailers conceptuais
- Conteúdos educativos e de media imersivo
Observação
Importa referir que os modelos Sora são atualmente os únicos modelos nativos de geração de vídeo fornecidos diretamente pela Foundry. Outros modelos Foundry podem ser multimodais (texto, imagem, áudio), mas não geram saída de vídeo. Tanto Sora 1 como Sora 2 incluem restrições de IA responsável, como limites a pessoas reais, personagens protegidos por direitos de autor e certos tipos de conteúdo.
Geração de vídeo no parque infantil da Foundry
Depois de implementares um modelo de geração de vídeo apropriado, podes testá-lo no playground do portal Foundry. No playground, também podes especificar parâmetros como dimensões e duração do vídeo.
Os seus prompts para o modelo de geração de vídeo devem incluir uma descrição do conteúdo do vídeo desejado. Passados alguns minutos, a modelo produz um vídeo.
Podes ver o código de exemplo no playground.
O código de exemplo utiliza a Interface REST para geração de vídeo.
Utilização da Interface REST para geração de vídeo
Pode usar a interface REST do Foundry para solicitar um trabalho de geração de vídeo e recuperar o MP4 finalizado programaticamente. A geração programática de vídeo permite-lhe automatizar o processo de geração de vídeo.
Observação
Uma API REST (API de Transferência de Estado Representacional) é uma interface web que permite aos programas comunicar através de HTTP. Um SDK como um kit de ferramentas amigável para desenvolvedores, construído sobre essa interface. Podes sempre trabalhar com a API REST subjacente, especialmente se não existir um SDK na linguagem de programação com que estás familiarizado. Pode usar curl (abreviatura de Client URL) para ligar, ou falar com, a API REST. O Curl é uma ferramenta de linha de comandos usada para enviar e receber dados pela internet. No seu cerne, curl: faz pedidos HTTP (e outros protocolos), envia dados para um servidor e recebe e imprime a resposta do servidor.
A geração de vídeo é intensiva em recursos e normalmente funciona como um trabalho assíncrono.
Assíncrono significa que:
- Criar um emprego
- Sondagem para o estado do cargo
- Descarregue o vídeo assim que o trabalho estiver concluído.
Os tempos de geração de vídeo são frequentemente de 1 a 5 minutos, dependendo das definições. Para executar um trabalho assíncrono usando a interface REST do Foundry, precisa de:
- Um recurso Azure OpenAI / Foundry numa região suportada e uma implementação do Sora (implementas o Sora a partir dos Modelos do Foundry + endpoints).
- Um método de autorização: chave API ou ID Microsoft Entra
Vamos analisar a utilização da API Azure OpenAI v1 com o modelo Sora 2.
A API do Sora 2 fornece pontos finais distintos para:
- Iniciar um trabalho de renderização
- Sondagens sobre o estado do cargo
- Transferindo o vídeo
1. Criar um trabalho de vídeo
No exemplo, o script inicia um trabalho de renderização assíncrono e devolve uma resposta que inclui um ID de vídeo para sondar.
Observação
Bash é um shell de linha de comandos e linguagem de scripting. Curl é um comando que executas dentro do Bash.
curl -X POST "https://YOUR-RESOURCE-NAME.openai.azure.com/openai/v1/videos" \
-H "Content-Type: application/json" \
-H "api-key: $AZURE_OPENAI_API_KEY" \
-d '{
"model": "sora-2",
"prompt": "A cinematic close-up of raindrops sliding down a neon-lit window at night.",
"size": "1280x720",
"seconds": "8"
}'
2. Verificar o estado da tarefa até à conclusão
No exemplo, o script interroga o endpoint até que o trabalho alcance completed (ou failed).
curl -X GET "https://YOUR-RESOURCE-NAME.openai.azure.com/openai/v1/videos/{video_id}" \
-H "api-key: $AZURE_OPENAI_API_KEY"
3. Descarregar o vídeo completo
O vídeo só é descarregado depois de o estado for completed.
curl -L "https://YOUR-RESOURCE-NAME.openai.azure.com/openai/v1/videos/{video_id}/content?variant=video" \
-H "api-key: $AZURE_OPENAI_API_KEY" \
--output output.mp4
Os modelos de vídeo estão a melhorar constantemente, e a Microsoft Foundry facilita a sua integração em soluções criativas. De seguida, experimente modelos com visão, geração de imagens e geração de vídeo no Foundry por si mesmo.