08-02-02 — Pricing models e SKUs: Azure OpenAI PTU vs token, Copilot licenses, Fabric CUs
TL;DR
Três modelos de cobrança dominam a stack: token-based (paga pelo que consome, ideal para dev/teste), PTU (Provisioned Throughput Units) (capacidade reservada, melhor para produção com volume previsível), e licença por usuário/mês (M365 Copilot, Copilot Studio). Microsoft Fabric usa Capacity Units (CUs) com SKUs de F2 a F2048. Entender esses modelos antes de fazer a arquitetura evita surpresas na fatura.
1. Azure OpenAI: Token-based vs PTU
| Aspecto | Pay-as-you-go (token) | PTU (Provisioned) |
|---|---|---|
| Cobrança | Por 1.000 tokens (input + output) | Por hora de PTU reservado |
| Compromisso | Nenhum | Mínimo 1 mês (mensal) ou 1 ano |
| Latência | Variável (throttling possível) | Previsível, garantida |
| Melhor para | Dev, teste, baixo volume | Produção com SLA, alto volume |
| Modelos disponíveis | Todos os modelos AOAI | GPT-4o, GPT-4, GPT-3.5 (selecionados) |
| Custo GPT-4o (referência) | ~$2,50/1M tokens input; ~$10/1M output | ~$0,01-0,05 por PTU/hora (varia por região) |
💡 Quando PTU compensa: Se você processa mais de ~500K tokens/dia de forma consistente, PTU geralmente é mais barato e previsível. Use a calculadora de preços Azure para comparar.
⚠️ Global PTU: Microsoft lançou "Global PTU" (2024) que usa capacidade distribuída globalmente — menor preço que PTU regional, mas sem garantia de região específica. Boa opção para empresas sem requisitos de soberania de dados.
2. Modelos GPT: referência de preços (2026)
| Modelo | Input (1M tokens) | Output (1M tokens) | Context window |
|---|---|---|---|
| GPT-4o | ~$2,50 | ~$10,00 | 128K |
| GPT-4o mini | ~$0,15 | ~$0,60 | 128K |
| o3 | ~$10,00 | ~$40,00 | 200K |
| o4-mini | ~$1,10 | ~$4,40 | 200K |
| text-embedding-3-large | ~$0,13 | — | 8K |
💡 GPT-4o mini: Para classificação, sumarização, extração de entidades e tasks simples, GPT-4o mini entrega 90% da qualidade a ~6% do custo. Reserve GPT-4o e o3 para tasks que realmente precisam.
3. Microsoft 365 Copilot: licenciamento
| SKU | Preço/user/mês | Inclui | Requer |
|---|---|---|---|
| M365 Copilot | ~$30 | Copilot em Word, Excel, Teams, Outlook, BizChat | M365 E3, E5, Business Premium ou Standard |
| Copilot Studio (standalone) | ~$200 (tenant/mês, 25K mensagens) | Build + publicação de agentes | Azure + Entra |
| Copilot Studio add-on | Mensagens adicionais: ~$0,008/mensagem | Volume extra | Copilot Studio ativo |
⚠️ Copilot Studio pricing 2025: Microsoft mudou o modelo de licença de Copilot Studio para "tenant-based messages" em vez de por usuário. Verifique o pricing atual antes de projetar budget — tem mudado com frequência.
4. Microsoft Fabric: Capacity Units (CUs)
| SKU Fabric | CUs | vCores Power BI | Preço/hora (EUA) | Melhor para |
|---|---|---|---|---|
| F2 | 2 | 0,25 | ~$0,36 | Dev/teste |
| F4 | 4 | 0,5 | ~$0,73 | Pequenas cargas |
| F8 | 8 | 1 | ~$1,46 | Workloads médias |
| F16 | 16 | 2 | ~$2,92 | Produção média |
| F64 | 64 | 8 | ~$11,66 | Produção robusta |
| F128 | 128 | 16 | ~$23,32 | Enterprise |
| F2048 | 2048 | 256 | ~$373,15 | Hyperscale |
Fabric é pago por capacidade ativa (pode pausar quando não usar). O Copilot in Fabric consome CUs adicionais — inclua isso no budget.
5. Azure AI Foundry: modelo de cobrança
O Foundry em si não cobra pela plataforma — você paga pelos recursos que provisiona dentro dele:
- Azure OpenAI deployments (token ou PTU)
- Azure AI Search (por SU + queries)
- Storage (Azure Blob para artifacts)
- Compute para fine-tuning (GPU hours)
- Agent Service: sem custo adicional — paga apenas pelos tokens dos modelos usados
Calculadora rápida: agente com RAG em produção
Cenário: 1.000 usuários, 10 perguntas/dia, média 2.000 tokens por interação (input 1.500 + output 500):
- Total tokens/mês: 1.000 × 10 × 30 × 2.000 = 600M tokens
- GPT-4o pay-per-token: ~$1.500/mês (input) + ~$300/mês (output) = ~$1.800/mês
- GPT-4o mini: ~$90/mês (input) + ~$18/mês (output) = ~$108/mês
- AI Search: ~$250/mês (S1 + queries)
- Total estimado: $350–$2.050/mês dependendo do modelo escolhido
✅ Recomendação: Para custos controláveis, use GPT-4o mini para o "primeiro passe" (triagem, extração) e GPT-4o para geração final da resposta. Isso reduz custo em 60–70% sem perda significativa de qualidade.