02-04-05 — Phi family (Microsoft): SLMs para edge e local
TL;DR
A família Phi da Microsoft prova que qualidade de dados supera quantidade de parâmetros. Modelos de 3B–14B que competem com modelos 10× maiores, projetados para rodar em hardware limitado — laptops, celulares, IoT. Com o Foundry Local, você sobe um endpoint local em minutos. Estratégia ideal para demos offline, apps mobile e cenários sem conectividade.
A filosofia: quality data > scale
A equipe de pesquisa da Microsoft (Sebastien Bubeck e colaboradores) partiu de uma hipótese contrária ao consenso de 2022: modelos pequenos treinados em dados de alta qualidade podem superar modelos gigantes treinados em dados brutos da internet.
A evidência veio com o Phi-1 em 2023: 1.3B parâmetros, treinado em "textbooks are all you need" — dados sintéticos de qualidade "nível livro didático" gerados pelo GPT-4. Resultado: superou modelos 10× maiores em benchmarks de código Python.
Evolução da família Phi
Phi-1 (junho 2023) — 1.3B
Prova de conceito. Foco em código Python. Treinado em ~7B tokens de dados sintéticos de alta qualidade. Superou Codex e StarCoder em HumanEval apesar de ser 10× menor.
Phi-2 (dezembro 2023) — 2.7B
Expandiu para raciocínio geral. Superou Llama 2 13B e Mistral 7B em vários benchmarks matemáticos e de raciocínio. Licença MIT.
Phi-3 Mini/Small/Medium (abril 2024)
- Phi-3 Mini (3.8B): cabe em um celular. Contexto de 128K tokens. Roda em iPhone 15 Pro / Android high-end.
- Phi-3 Small (7B): balanceamento qualidade/custo para servidores pequenos.
- Phi-3 Medium (14B): próximo ao GPT-3.5 em muitos benchmarks, rodando em hardware acessível.
Phi-3.5 (agosto 2024)
Adicionou versão MoE (Mixture of Experts) e melhorou suporte multilingual. Phi-3.5 Vision: capacidade multimodal (texto + imagem).
Phi-4 (dezembro 2024) — 14B
O mais capaz da família até 2025. Foco em raciocínio matemático e código. Supera GPT-4o-mini e o3-mini em vários benchmarks de matemática (MATH, GSM8K). Licença MIT.
Phi-4 Mini (fevereiro 2025) — 3.8B
Versão compacta do Phi-4, mantendo capacidade de raciocínio para edge. Suporte a function calling — permite agentes em dispositivos offline.
SLMs para edge: casos de uso reais
Mobile (iOS / Android)
Phi-3 Mini em 4-bit quantization ocupa ~2GB de RAM. Compatível com Core ML (iOS) e ONNX Runtime Mobile (Android). Latência de ~30 tokens/s em iPhone 15 Pro.
IoT e sistemas industriais
Para clientes como Michelin e Vale: imagine um sistema de inspeção que analisa imagens de equipamento localmente em um tablet industrial sem WiFi, usando Phi-3.5 Vision. Sem latência de rede, sem dados de produção na nuvem.
Aplicações offline / air-gapped
Ambientes regulados onde qualquer saída de dados é proibida (defesa, saúde, financeiro). Phi roda completamente on-premise.
Foundry Local: endpoint local em minutos
O Microsoft AI Foundry Local (antes chamado de ONNX Runtime GenAI) permite rodar modelos Phi — e outros modelos ONNX — com uma API compatível com OpenAI. Isso significa que código escrito para GPT-4 funciona sem mudança apontando para um servidor local.
ai-foundry-local sobe um servidor HTTP local em localhost:5273 com endpoint /v1/chat/completions — idêntico à API da OpenAI.
# Usando Phi-4 via Foundry Local (API compatível com OpenAI)
from openai import OpenAI
# Aponta para o servidor local do Foundry Local
client = OpenAI(
base_url="http://localhost:5273/v1",
api_key="not-needed" # Foundry Local não requer chave
)
response = client.chat.completions.create(
model="phi-4",
messages=[
{"role": "system", "content": "Você é um assistente técnico especializado em .NET."},
{"role": "user", "content": "Explique a diferença entre Task e ValueTask em C#."}
],
temperature=0.3,
max_tokens=500
)
print(response.choices[0].message.content)
// C# com Foundry Local — mesmo código, modelo local
using Azure.AI.OpenAI;
using Azure;
// Foundry Local expõe endpoint compatível com Azure OpenAI SDK
var client = new AzureOpenAIClient(
new Uri("http://localhost:5273"),
new AzureKeyCredential("not-needed")
);
var chatClient = client.GetChatClient("phi-4");
var response = await chatClient.CompleteChatAsync(
new[]
{
new SystemChatMessage("Você é um assistente técnico .NET."),
new UserChatMessage("Quando usar Span vs Memory?")
},
new ChatCompletionOptions { Temperature = 0.3f }
);
Console.WriteLine(response.Value.Content[0].Text);
Benchmarks comparativos
| Modelo | Params | MATH | HumanEval | MMLU |
|---|---|---|---|---|
| Phi-4 | 14B | 80.4% | 82.6% | 84.8% |
| GPT-4o-mini | ? | 70.2% | 87.2% | 82.0% |
| Llama 3.1 70B | 70B | 65.7% | 80.5% | 83.6% |
| Phi-3 Mini | 3.8B | 44.6% | 58.5% | 68.8% |
Fonte: Microsoft Research, dezembro 2024. Benchmarks variam por metodologia.
Como isso se conecta
- → 02-04-04 — Open-weight em geral: Phi é open-weight com licença MIT generosa
- → 02-04-06 — Azure OpenAI Service: Phi também disponível via Azure AI Foundry (cloud)
- → 02-01-02 — Scaling laws: Phi desafia a curva de escala via qualidade de dados
- → Módulo 06 — Fine-tuning de SLMs para domínios específicos