Modelos de IA generativa

6 minutos

Sugestão

Consulte a guia Texto e imagens para obter mais detalhes!

As soluções de IA generativa e agentes baseiam-se em modelos de linguagem. Grandes modelos de linguagem (LLMs) formam a base das soluções de IA generativa que podem fornecer uma grande variedade de respostas. Hoje, existe uma vasta gama de modelos que servem diferentes necessidades. Por exemplo, as capacidades de IA numa aplicação telemóvel leve podem funcionar melhor num modelo de linguagem pequeno, enquanto uma aplicação governamental pode necessitar de um modelo especializado em domínio.

A Microsoft Foundry fornece um ambiente integrado para descobrir, avaliar, implementar e operar modelos de IA generativa. Reúne um catálogo rico de modelos, opções flexíveis de implementação e capacidades de governação integradas para que as equipas possam construir copilotos, agentes e aplicações baseadas em IA com confiança empresarial.

Observação

Para usar o Microsoft Foundry, precisa de uma subscrição Azure. Para utilizar as capacidades da Foundry, comece por criar um projeto na Foundry. Para mais informações, consulte Comece no Microsoft Foundry.

Descubra modelos no catálogo de modelos da Foundry

O catálogo de modelos da Foundry é um ponto central para descobrir e utilizar uma vasta seleção de modelos de IA generativa de uma vasta gama de fornecedores. No Foundry, pode filtrar modelos por origem, capacidades, tarefas de inferência e mais. O Foundry permite-lhe compreender e comparar capacidades de modelos, bem como testar e construir soluções de IA escaláveis, seguras e responsáveis.

Observação

O portal Foundry tem uma interface de utilizador clássica (UI) e uma nova interface. As imagens do portal Foundry refletem a nova interface onde é relevante.

Captura de ecrã do catálogo de modelos da Foundry com a nova interface.

O catálogo de modelos oferece uma vasta seleção de modelos, incluindo modelos vendidos diretamente pela Azure, juntamente com modelos de parceiros e comunidades open-source.

Modelos Vendidos Diretamente pelo Azure: Estes modelos são alojados pela Microsoft sob os Termos do Produto Microsoft. Oferecem elevados níveis de integração com o Azure, acordos de nível de serviço (SLAs) de nível empresarial, segurança pré-configurada e alinhamento de conformidade.
Modelos da Partners and the Community: Inclui modelos open-source ou alojados por fornecedores integrados através do catálogo. Estes modelos suportam experimentação mais ampla e inovação rápida e são frequentemente adequados para tarefas especializadas ou específicas de domínio.

Cada entrada de modelo inclui tipicamente:

Descrições e capacidades de modelos (geração de texto, raciocínio, programação, abordagens multimodais, embeddings, etc.)
Resultados de benchmarks e comparações de desempenho
Tarefas de inferência suportadas e opções de ajuste fino
Documentação de IA responsável (cartões de modelo, restrições, ressalvas)

Captura de ecrã das entradas do modelo da Foundry com o gpt-4.1 como exemplo.

Famílias de modelos comumente utilizadas

Entre os mais de mil modelos disponíveis na Foundry, há muitos agrupados por família de modelos. Uma família de modelos refere-se a um grupo de modelos relacionados que partilham a mesma arquitetura ou linhagem subjacente, mas diferem em tamanho, capacidade, especialização ou versão.

As famílias de modelos mais utilizadas incluem:

GPT-5.x: Otimizado para raciocínio em múltiplos passos, lógica estruturada, planeamento e fluxos de trabalho agentes. Funciona bem em cenários que exigem raciocínio de alta precisão e compreensão de contexto longo — como gerar relatórios técnicos, análise de código ou orquestrar agentes multiferramenta. Suporta "níveis de pensamento" ajustáveis, permitindo aos programadores trocar velocidade por precisão quando necessário.
Claude Opus 4.5 (Anthropic): Quando precisas de um modelo de nível de fronteira para agentes sofisticados, raciocínio de código complexo ou tarefas de utilização informática em múltiplos passos. O Opus 4.5 é descrito como o modelo mais inteligente da Anthropic, com forte desempenho em programação, agentes e uso de computadores, e grandes janelas de contexto/saída — útil para especificações longas, diffs de múltiplos ficheiros ou notas de investigação estendidas.
Mistral Large 3 (Mistral AI): é um modelo de última geração e de uso geral, ideal para onde se pretende qualidade forte com rendimento eficiente. O modelo funciona bem com redação multilíngue, geração estruturada de relatórios empresariais ou tarefas de agentes de média latência que equilibram custo e desempenho. O Mistral Large 3 é um modelo geral "de última geração" e faz parte do catálogo curado da Foundry, tornando-o uma alternativa prática aos modelos topo de gama quando se pretende alta capacidade com compromissos flexíveis entre custo e latência.

Observação

O registo é atualmente obrigatório para a família de modelos GPT-5, restringindo a sua disponibilidade. Todos os utilizadores da Foundry podem usar o GPT-4.1, que é ideal para chat em tempo real, apoio ao cliente e aplicações interativas que devem responder de forma rápida e em grande escala. Está otimizado para velocidade, eficiência e inferência com baixa latência, tornando-o melhor do que modelos intensivos em raciocínio para operações de produção de grande volume.

No Foundry, os modelos de fundação são modelos grandes e pré-treinados — como GPT, Claude, Mistral e outros — que fornecem capacidades gerais de linguagem, raciocínio ou multimodais prontas a usar. Estes modelos podem ser implementados imediatamente ou personalizados através de ajustes finos, e servem como camada base para construir aplicações de IA.

Avaliar modelos na Foundry

Escolher o modelo certo no Foundry começa por compreender a sua carga de trabalho, tipo de tarefa e restrições.

Selecione um modelo por tipo de tarefa

Tarefa	Tipos de modelos recomendados	Detalhes do modelo
Chat	GPT-5.x chat, Claude Sonnet/Opus, Mistral-Large-3, DeepSeek V3.1, pequenos modelos de linguagem (SLMs) como Phi-4 ou Llama	Raciocínio forte, afinação da conversa, segurança
Codificação	Códice GPT-5.1, Claude-Soneto	Suporte para fluxos complexos de agentes
Summarization	Modelos de raciocínio GPT-5.x, Claude Opus/Sonnet	Compressão de contexto longo e alta qualidade
Embeddings	text-embedding-3-small ou outros modelos de incorporação	Construído para representações vetoriais semânticas
Multimodal	Phi-4-multimodal-instruct, GPT-5.x chat multimodal, Mistral-Large-3	Suporte para imagens, áudio e vídeo em preenchimentos de chat
Indústria ou domínio específico	Modelos ajustados por domínio no catálogo	Aplicações específicas de um setor, como finanças, saúde, jurídico

Observação

Quando o caso de uso está bem definido, em vez de escolher um modelo do catálogo de modelos, pode optar por uma ferramenta Foundry. As ferramentas Foundry são alimentadas por modelos pré-construídos que proporcionam desempenho previsível, conformidade incorporada e rápida obtenção de valor sem modelação personalizada.

Pontuar e comparar modelos na Foundry

O catálogo de modelos da Foundry inclui resultados de benchmarking que mostram como os modelos se comportam em conjuntos de dados padrão. As pontuações dos benchmarks simplificam a seleção do modelo ao utilizar critérios de avaliação consistentes.

Através do portal Foundry, também pode ver:

Tabelas de classificação modelo: as tabelas classificam os modelos com base em atributos como qualidade, segurança e rendimento. Isto ajuda a identificar o melhor modelo para uma tarefa. Exemplos de tarefas incluem raciocínio, sumarização e geração de código.
Comparações e filtros: Comparação lado a lado dos modelos por qualidade e precisão, custo, segurança e conformidade, e métricas de desempenho. Pode filtrar por setor, caso de uso, tipo de modelo, licenciamento e muito mais.

Captura de ecrã da tabela de líderes de modelos da Foundry e comparações lado a lado.

Uma forma comum de avaliar é começar no catálogo de modelos da Foundry, escolher um modelo e depois selecionar Benchmarks → tentar com os seus próprios dados. Podes experimentar os prompts e ver se as respostas são as esperadas.

Existem várias formas de pontuar um modelo no portal Foundry, incluindo métricas de Processamento de Linguagem Natural (PLN) e métricas de qualidade assistidas por IA. Exemplos de métricas clássicas de qualidade do PLN são: acurácia, precisão, revocação e F1. Exemplos de métricas assistidas por IA incluem fundamentação, relevância, coerência e fluência, e similaridade com GPT. Escolha métricas assistidas por IA para uma pontuação qualitativa para além das métricas tradicionais.

No Foundry, os avaliadores são componentes usados para medir a qualidade, segurança e eficácia dos resultados de modelos ou agentes de IA. Por exemplo, avaliadores de segurança podem ser usados para garantir uma produção responsável de IA. Eles procuram conteúdos prejudiciais ou inseguros, preconceitos e injustiça, violência, auto-mutilação ou danos de classe protegida. A Biblioteca de Avaliadores da Foundry oferece avaliadores reutilizáveis para pontuação de qualidade, análise de segurança e muito mais.

Observação

Por si só, os avaliadores da Foundry detetam, analisam e pontuam problemas, mas não os resolvem ativamente.

Implementar modelos na Foundry

Depois de selecionar um modelo, o Foundry oferece mecanismos de implementação flexíveis que permitem personalizar desempenho, custo e governação. Implementar um modelo pega num modelo de IA e torna-o disponível para uso em produção através de um endpoint estável, escalável e seguro. A implementação de um modelo configurado transforma o modelo num serviço que as aplicações podem chamar — normalmente através de uma API. Implementar um modelo configurado ajuda a garantir desempenho e fiabilidade consistentes. Também permite aos programadores prevenir usos não autorizados ou inseguros.

Os parâmetros de implementação que pode personalizar no Foundry incluem:

Tipo de implementação: como padrão, lote global e débito provisionado regionalmente, determina onde e como a inferência é processada no Foundry. Os tipos de implementação estão associados à taxa de transferência e aos requisitos de processamento de dados.
Versão do modelo
Limite de taxa de tokens por minuto (TPM)

Observação

Um token é a menor unidade de texto ou dados que um modelo de IA generativa consegue processar. Os modelos dividem a entrada em tokens — como palavras, subpalavras, caracteres ou pontuação — para que possam compreender e gerar a linguagem de forma eficiente.

Quando implementa um modelo, pode atribuir-lhe uma alocação de Tokens Por Minuto (TPM). O TPM determina a velocidade e a escala em que o modelo pode processar as entradas e os limites de taxa, como solicitações por minuto (RPM). Quando atribui uma alocação TPM mais elevada a uma implementação modelo, está a aumentar a sua capacidade para gerir tráfego de tokens por minuto. TPM mais baixo reduz a rapidez com que a sua implementação pode consumir tokens entre pedidos.

Os limites diferem consoante a família de modelos, por exemplo:

Modelos de raciocínio topo de gama (por exemplo: DeepSeek R1, Grok, versões grandes da Llama) podem ter tetos de TPM elevados.
Modelos especializados ou de imagem frequentemente operam com unidades de capacidade em vez de TPM.

A limitação, num contexto computacional, significa abrandar ou limitar intencionalmente a quantidade de trabalho computacional que pode acontecer ao mesmo tempo. É um mecanismo de proteção usado quando um sistema está perto de atingir os seus limites de processamento. A limitação restringe temporariamente o uso de recursos, permitindo que o sistema se mantenha estável e responsivo.

As quotas ao nível de implementação definem quantos tokens ou pedidos podem ser processados antes de ocorrer a limitação. Prompts maiores e configurações mais altas de tokens máximos de saída consomem mais TPM, podendo resultar em erros de limite de taxa se excedidos (abordados nos resultados de pesquisa da descrição por limitação). Se vires limitação, reduz o número de tokens máximos ou as requisições simultâneas no código.

Quando implementas um modelo no Foundry, várias coisas acontecem:

Os recursos de computação são alocados: O Foundry atribui o hardware necessário para executar o modelo — CPUs, GPUs, memória, regras de rede e escalabilidade.
É criado um endpoint da API: É possível invocar o modelo de forma segura através da API OpenAI Responses, validado através de verificações da API de gestão.
A configuração (como a versão do modelo, estilo de resposta, definições de segurança) está bloqueada
A monitorização e o registo tornam-se ativos: métricas de utilização, desempenho, latência, erros e custos são acompanhados

De seguida, aprenda a configurar estes modelos no playground do portal Foundry e utilize-os numa aplicação cliente.

Comentários

Esta página foi útil?