09-01-03 — Model catalog: OpenAI, Mistral, Llama, Phi, Cohere, DeepSeek, xAI
TL;DR
O AI Foundry Model Catalog tem 1800+ modelos de mais de 30 provedores. Três formas de deploy: Serverless API (paga por token, sem GPU gerenciar), Managed Compute (GPU dedicada no seu tenant) e Azure OpenAI Service (modelos OpenAI exclusivos). Para a maioria dos casos .NET, Serverless API é o ponto de entrada — zero overhead de infra, billing por uso.
Principais famílias de modelos
| Família | Modelos destaque | Ponto forte | Deploy options |
|---|---|---|---|
| OpenAI | GPT-4o, GPT-4o mini, o3, o4-mini, DALL-E 3, Whisper, tts | Qualidade geral, reasoning (o3), multimodal | AOAI Service |
| Microsoft Phi | Phi-4, Phi-4-mini, Phi-4-multimodal | SLM: alta qualidade em modelos pequenos, ideal para edge/local | Serverless + Managed + Local |
| Meta Llama | Llama 3.3 70B, Llama 3.2 11B Vision, Llama 3.1 405B | Open weights, customização, fine-tuning | Serverless + Managed |
| Mistral | Mistral Large 2407, Mistral Nemo, Codestral | Código (Codestral), multilíngue | Serverless |
| Cohere | Command R+, Embed v3, Rerank 3 | RAG (Embed + Rerank), enterprise | Serverless |
| DeepSeek | DeepSeek-R1, DeepSeek-V3 | Reasoning (R1), custo-benefício | Serverless |
| xAI | Grok-2, Grok-3 | Raciocínio, contexto longo | Serverless |
| AI21 | Jamba 1.5 Large, Jamba 1.5 Mini | Contexto 256K nativo, SSM híbrido | Serverless |
Três modos de deploy
1. Serverless API (pay-per-token)
Você faz o deploy do modelo e recebe um endpoint HTTPS. Microsoft gerencia a GPU, a infra, o scaling. Você paga apenas pelos tokens consumidos. Ideal para começar.
import os
from azure.ai.inference import ChatCompletionsClient
from azure.core.credentials import AzureKeyCredential
# Endpoint serverless do Mistral Large deployado no seu projeto Foundry
client = ChatCompletionsClient(
endpoint=os.environ["AZURE_AI_FOUNDRY_ENDPOINT"],
credential=AzureKeyCredential(os.environ["AZURE_AI_FOUNDRY_KEY"])
)
response = client.complete(
model="mistral-large-2407",
messages=[
{"role": "system", "content": "Você é um assistente especialista em .NET."},
{"role": "user", "content": "Explique o padrão Repository com C# 12."}
],
max_tokens=1000
)
print(response.choices[0].message.content)
2. Managed Compute
GPU dedicada no seu tenant Azure. Você escolhe o SKU (Standard_NC24ads_A100_v4, etc.), Foundry provisiona. Tempo de deploy: 10-30 minutos. Custo fixo mesmo sem usar. Use quando precisar de:
- SLA de latência garantida
- Customização pós-deploy (adapters LoRA)
- Modelos não disponíveis em Serverless
- Dados que não podem sair do tenant
3. Azure OpenAI Service
Modelos OpenAI exclusivos (GPT-4o, o3, DALL-E 3, etc.) deployados via Azure OpenAI Service, acessíveis dentro do Foundry via Connection. A Connection compartilha o endpoint entre todos os projetos do Hub.
Como deployar via portal
- Acesse ai.azure.com → seu projeto
- Menu lateral → Model Catalog
- Filtre por provider, task, license
- Clique no modelo → Deploy
- Escolha deployment type (Serverless ou Managed)
- Aceite os termos (para modelos de terceiros)
- Aguarde o endpoint ficar ativo (~2 min para Serverless)
Como deployar via código (Python SDK)
from azure.ai.projects import AIProjectClient
from azure.identity import DefaultAzureCredential
client = AIProjectClient.from_connection_string(
conn_str=os.environ["AZURE_AI_FOUNDRY_CONNECTION_STRING"],
credential=DefaultAzureCredential()
)
# Lista modelos disponíveis no catalog
models = client.models.list()
for model in models:
print(f"{model.name} - {model.publisher}")
Selecionando o modelo certo para seu caso
| Use case | Recomendação | Justificativa |
|---|---|---|
| Chatbot generalista (PT-BR) | GPT-4o mini | Custo baixo, boa qualidade em português |
| Reasoning / análise complexa | o3 ou o4-mini | Chain-of-thought nativo |
| Code generation / review | Codestral ou GPT-4o | Codestral especializado em código |
| RAG embeddings | text-embedding-3-large + Cohere Rerank | Melhor recall + reranking |
| Edge / offline / custo zero/token | Phi-4-mini (Foundry Local) | SLM otimizado, roda on-device |
| Documentos longos (256K+) | Jamba 1.5 Large | Context window nativo de 256K |
| Multimodal (imagem + texto) | GPT-4o ou Phi-4-multimodal | GPT-4o melhor qualidade; Phi-4-mm para edge |