09-01-03 — Model catalog: OpenAI, Mistral, Llama, Phi, Cohere, DeepSeek, xAI

⏱ 15 minFontes validadas em: 2026-04-29

TL;DR

O AI Foundry Model Catalog tem 1800+ modelos de mais de 30 provedores. Três formas de deploy: Serverless API (paga por token, sem GPU gerenciar), Managed Compute (GPU dedicada no seu tenant) e Azure OpenAI Service (modelos OpenAI exclusivos). Para a maioria dos casos .NET, Serverless API é o ponto de entrada — zero overhead de infra, billing por uso.

Principais famílias de modelos

Família	Modelos destaque	Ponto forte	Deploy options
OpenAI	GPT-4o, GPT-4o mini, o3, o4-mini, DALL-E 3, Whisper, tts	Qualidade geral, reasoning (o3), multimodal	AOAI Service
Microsoft Phi	Phi-4, Phi-4-mini, Phi-4-multimodal	SLM: alta qualidade em modelos pequenos, ideal para edge/local	Serverless + Managed + Local
Meta Llama	Llama 3.3 70B, Llama 3.2 11B Vision, Llama 3.1 405B	Open weights, customização, fine-tuning	Serverless + Managed
Mistral	Mistral Large 2407, Mistral Nemo, Codestral	Código (Codestral), multilíngue	Serverless
Cohere	Command R+, Embed v3, Rerank 3	RAG (Embed + Rerank), enterprise	Serverless
DeepSeek	DeepSeek-R1, DeepSeek-V3	Reasoning (R1), custo-benefício	Serverless
xAI	Grok-2, Grok-3	Raciocínio, contexto longo	Serverless
AI21	Jamba 1.5 Large, Jamba 1.5 Mini	Contexto 256K nativo, SSM híbrido	Serverless

Três modos de deploy

1. Serverless API (pay-per-token)

Você faz o deploy do modelo e recebe um endpoint HTTPS. Microsoft gerencia a GPU, a infra, o scaling. Você paga apenas pelos tokens consumidos. Ideal para começar.

import os
from azure.ai.inference import ChatCompletionsClient
from azure.core.credentials import AzureKeyCredential

# Endpoint serverless do Mistral Large deployado no seu projeto Foundry
client = ChatCompletionsClient(
    endpoint=os.environ["AZURE_AI_FOUNDRY_ENDPOINT"],
    credential=AzureKeyCredential(os.environ["AZURE_AI_FOUNDRY_KEY"])
)

response = client.complete(
    model="mistral-large-2407",
    messages=[
        {"role": "system", "content": "Você é um assistente especialista em .NET."},
        {"role": "user", "content": "Explique o padrão Repository com C# 12."}
    ],
    max_tokens=1000
)
print(response.choices[0].message.content)

2. Managed Compute

GPU dedicada no seu tenant Azure. Você escolhe o SKU (Standard_NC24ads_A100_v4, etc.), Foundry provisiona. Tempo de deploy: 10-30 minutos. Custo fixo mesmo sem usar. Use quando precisar de:

SLA de latência garantida
Customização pós-deploy (adapters LoRA)
Modelos não disponíveis em Serverless
Dados que não podem sair do tenant

3. Azure OpenAI Service

Modelos OpenAI exclusivos (GPT-4o, o3, DALL-E 3, etc.) deployados via Azure OpenAI Service, acessíveis dentro do Foundry via Connection. A Connection compartilha o endpoint entre todos os projetos do Hub.

Como deployar via portal

Acesse ai.azure.com → seu projeto
Menu lateral → Model Catalog
Filtre por provider, task, license
Clique no modelo → Deploy
Escolha deployment type (Serverless ou Managed)
Aceite os termos (para modelos de terceiros)
Aguarde o endpoint ficar ativo (~2 min para Serverless)

Como deployar via código (Python SDK)

from azure.ai.projects import AIProjectClient
from azure.identity import DefaultAzureCredential

client = AIProjectClient.from_connection_string(
    conn_str=os.environ["AZURE_AI_FOUNDRY_CONNECTION_STRING"],
    credential=DefaultAzureCredential()
)

# Lista modelos disponíveis no catalog
models = client.models.list()
for model in models:
    print(f"{model.name} - {model.publisher}")

Selecionando o modelo certo para seu caso

Use case	Recomendação	Justificativa
Chatbot generalista (PT-BR)	GPT-4o mini	Custo baixo, boa qualidade em português
Reasoning / análise complexa	o3 ou o4-mini	Chain-of-thought nativo
Code generation / review	Codestral ou GPT-4o	Codestral especializado em código
RAG embeddings	text-embedding-3-large + Cohere Rerank	Melhor recall + reranking
Edge / offline / custo zero/token	Phi-4-mini (Foundry Local)	SLM otimizado, roda on-device
Documentos longos (256K+)	Jamba 1.5 Large	Context window nativo de 256K
Multimodal (imagem + texto)	GPT-4o ou Phi-4-multimodal	GPT-4o melhor qualidade; Phi-4-mm para edge

⚠️ Disponibilidade por região: Nem todos os modelos Serverless estão em todas as regiões Azure. Verifique disponibilidade antes de arquitetar. East US e West Europe têm maior cobertura.

Como isso se conecta

→ 09-02-01: Agent Service usa os modelos deployados aqui
→ 09-02-03: BYOM para modelos que não estão no catalog
→ 09-03-01: Foundry Local — subconjunto de modelos roda offline