09-01-03 — Model catalog: OpenAI, Mistral, Llama, Phi, Cohere, DeepSeek, xAI

⏱ 15 minFontes validadas em: 2026-04-29

TL;DR

O AI Foundry Model Catalog tem 1800+ modelos de mais de 30 provedores. Três formas de deploy: Serverless API (paga por token, sem GPU gerenciar), Managed Compute (GPU dedicada no seu tenant) e Azure OpenAI Service (modelos OpenAI exclusivos). Para a maioria dos casos .NET, Serverless API é o ponto de entrada — zero overhead de infra, billing por uso.

Principais famílias de modelos

FamíliaModelos destaquePonto forteDeploy options
OpenAIGPT-4o, GPT-4o mini, o3, o4-mini, DALL-E 3, Whisper, ttsQualidade geral, reasoning (o3), multimodalAOAI Service
Microsoft PhiPhi-4, Phi-4-mini, Phi-4-multimodalSLM: alta qualidade em modelos pequenos, ideal para edge/localServerless + Managed + Local
Meta LlamaLlama 3.3 70B, Llama 3.2 11B Vision, Llama 3.1 405BOpen weights, customização, fine-tuningServerless + Managed
MistralMistral Large 2407, Mistral Nemo, CodestralCódigo (Codestral), multilíngueServerless
CohereCommand R+, Embed v3, Rerank 3RAG (Embed + Rerank), enterpriseServerless
DeepSeekDeepSeek-R1, DeepSeek-V3Reasoning (R1), custo-benefícioServerless
xAIGrok-2, Grok-3Raciocínio, contexto longoServerless
AI21Jamba 1.5 Large, Jamba 1.5 MiniContexto 256K nativo, SSM híbridoServerless

Três modos de deploy

1. Serverless API (pay-per-token)

Você faz o deploy do modelo e recebe um endpoint HTTPS. Microsoft gerencia a GPU, a infra, o scaling. Você paga apenas pelos tokens consumidos. Ideal para começar.

import os
from azure.ai.inference import ChatCompletionsClient
from azure.core.credentials import AzureKeyCredential

# Endpoint serverless do Mistral Large deployado no seu projeto Foundry
client = ChatCompletionsClient(
    endpoint=os.environ["AZURE_AI_FOUNDRY_ENDPOINT"],
    credential=AzureKeyCredential(os.environ["AZURE_AI_FOUNDRY_KEY"])
)

response = client.complete(
    model="mistral-large-2407",
    messages=[
        {"role": "system", "content": "Você é um assistente especialista em .NET."},
        {"role": "user", "content": "Explique o padrão Repository com C# 12."}
    ],
    max_tokens=1000
)
print(response.choices[0].message.content)

2. Managed Compute

GPU dedicada no seu tenant Azure. Você escolhe o SKU (Standard_NC24ads_A100_v4, etc.), Foundry provisiona. Tempo de deploy: 10-30 minutos. Custo fixo mesmo sem usar. Use quando precisar de:

  • SLA de latência garantida
  • Customização pós-deploy (adapters LoRA)
  • Modelos não disponíveis em Serverless
  • Dados que não podem sair do tenant

3. Azure OpenAI Service

Modelos OpenAI exclusivos (GPT-4o, o3, DALL-E 3, etc.) deployados via Azure OpenAI Service, acessíveis dentro do Foundry via Connection. A Connection compartilha o endpoint entre todos os projetos do Hub.

Como deployar via portal

  1. Acesse ai.azure.com → seu projeto
  2. Menu lateral → Model Catalog
  3. Filtre por provider, task, license
  4. Clique no modelo → Deploy
  5. Escolha deployment type (Serverless ou Managed)
  6. Aceite os termos (para modelos de terceiros)
  7. Aguarde o endpoint ficar ativo (~2 min para Serverless)

Como deployar via código (Python SDK)

from azure.ai.projects import AIProjectClient
from azure.identity import DefaultAzureCredential

client = AIProjectClient.from_connection_string(
    conn_str=os.environ["AZURE_AI_FOUNDRY_CONNECTION_STRING"],
    credential=DefaultAzureCredential()
)

# Lista modelos disponíveis no catalog
models = client.models.list()
for model in models:
    print(f"{model.name} - {model.publisher}")

Selecionando o modelo certo para seu caso

Use caseRecomendaçãoJustificativa
Chatbot generalista (PT-BR)GPT-4o miniCusto baixo, boa qualidade em português
Reasoning / análise complexao3 ou o4-miniChain-of-thought nativo
Code generation / reviewCodestral ou GPT-4oCodestral especializado em código
RAG embeddingstext-embedding-3-large + Cohere RerankMelhor recall + reranking
Edge / offline / custo zero/tokenPhi-4-mini (Foundry Local)SLM otimizado, roda on-device
Documentos longos (256K+)Jamba 1.5 LargeContext window nativo de 256K
Multimodal (imagem + texto)GPT-4o ou Phi-4-multimodalGPT-4o melhor qualidade; Phi-4-mm para edge
⚠️ Disponibilidade por região: Nem todos os modelos Serverless estão em todas as regiões Azure. Verifique disponibilidade antes de arquitetar. East US e West Europe têm maior cobertura.

Como isso se conecta

  • 09-02-01: Agent Service usa os modelos deployados aqui
  • 09-02-03: BYOM para modelos que não estão no catalog
  • 09-03-01: Foundry Local — subconjunto de modelos roda offline

Fontes

  1. Model catalog overview — Microsoft Learn
  2. Deploy models as serverless APIs — Microsoft Learn
  3. Expanding the Azure AI Model Catalog — Tech Community
  4. Deployments overview in Azure AI Foundry — Microsoft Learn