02-04-05 — Phi family (Microsoft): SLMs para edge e local

⏱ 12 min Fontes validadas em: 2026-04-29

TL;DR

A família Phi da Microsoft prova que qualidade de dados supera quantidade de parâmetros. Modelos de 3B–14B que competem com modelos 10× maiores, projetados para rodar em hardware limitado — laptops, celulares, IoT. Com o Foundry Local, você sobe um endpoint local em minutos. Estratégia ideal para demos offline, apps mobile e cenários sem conectividade.

A filosofia: quality data > scale

A equipe de pesquisa da Microsoft (Sebastien Bubeck e colaboradores) partiu de uma hipótese contrária ao consenso de 2022: modelos pequenos treinados em dados de alta qualidade podem superar modelos gigantes treinados em dados brutos da internet.

A evidência veio com o Phi-1 em 2023: 1.3B parâmetros, treinado em "textbooks are all you need" — dados sintéticos de qualidade "nível livro didático" gerados pelo GPT-4. Resultado: superou modelos 10× maiores em benchmarks de código Python.

💡 A lição para quem constrói produtos. Se você tem um domínio específico (ex: manutenção de equipamentos industriais para Vale), dados de qualidade nesse domínio valem mais que bilhões de parâmetros treinados em reddit. Um Phi-3 Mini fine-tunado no seu domínio pode superar GPT-3.5 no seu caso de uso específico.

Evolução da família Phi

Phi-1 (junho 2023) — 1.3B

Prova de conceito. Foco em código Python. Treinado em ~7B tokens de dados sintéticos de alta qualidade. Superou Codex e StarCoder em HumanEval apesar de ser 10× menor.

Phi-2 (dezembro 2023) — 2.7B

Expandiu para raciocínio geral. Superou Llama 2 13B e Mistral 7B em vários benchmarks matemáticos e de raciocínio. Licença MIT.

Phi-3 Mini/Small/Medium (abril 2024)

Phi-3 Mini (3.8B): cabe em um celular. Contexto de 128K tokens. Roda em iPhone 15 Pro / Android high-end.
Phi-3 Small (7B): balanceamento qualidade/custo para servidores pequenos.
Phi-3 Medium (14B): próximo ao GPT-3.5 em muitos benchmarks, rodando em hardware acessível.

Phi-3.5 (agosto 2024)

Adicionou versão MoE (Mixture of Experts) e melhorou suporte multilingual. Phi-3.5 Vision: capacidade multimodal (texto + imagem).

Phi-4 (dezembro 2024) — 14B

O mais capaz da família até 2025. Foco em raciocínio matemático e código. Supera GPT-4o-mini e o3-mini em vários benchmarks de matemática (MATH, GSM8K). Licença MIT.

Phi-4 Mini (fevereiro 2025) — 3.8B

Versão compacta do Phi-4, mantendo capacidade de raciocínio para edge. Suporte a function calling — permite agentes em dispositivos offline.

🏢 Onde a Microsoft usa internamente. Phi-3/4 Mini é o motor dos Copilot+ PCs com NPU (Neural Processing Unit). O Windows 11 usa esses modelos para features offline como recall, OCR inteligente e summarization de documentos — tudo processado localmente, sem dados saindo do dispositivo.

SLMs para edge: casos de uso reais

Mobile (iOS / Android)

Phi-3 Mini em 4-bit quantization ocupa ~2GB de RAM. Compatível com Core ML (iOS) e ONNX Runtime Mobile (Android). Latência de ~30 tokens/s em iPhone 15 Pro.

IoT e sistemas industriais

Para clientes como Michelin e Vale: imagine um sistema de inspeção que analisa imagens de equipamento localmente em um tablet industrial sem WiFi, usando Phi-3.5 Vision. Sem latência de rede, sem dados de produção na nuvem.

Aplicações offline / air-gapped

Ambientes regulados onde qualquer saída de dados é proibida (defesa, saúde, financeiro). Phi roda completamente on-premise.

Foundry Local: endpoint local em minutos

O Microsoft AI Foundry Local (antes chamado de ONNX Runtime GenAI) permite rodar modelos Phi — e outros modelos ONNX — com uma API compatível com OpenAI. Isso significa que código escrito para GPT-4 funciona sem mudança apontando para um servidor local.

🏢 Foundry Local. Disponível para Windows (com suporte a DirectML/CUDA) e macOS (Metal). O pacote ai-foundry-local sobe um servidor HTTP local em localhost:5273 com endpoint /v1/chat/completions — idêntico à API da OpenAI.

# Usando Phi-4 via Foundry Local (API compatível com OpenAI)
from openai import OpenAI

# Aponta para o servidor local do Foundry Local
client = OpenAI(
    base_url="http://localhost:5273/v1",
    api_key="not-needed"  # Foundry Local não requer chave
)

response = client.chat.completions.create(
    model="phi-4",
    messages=[
        {"role": "system", "content": "Você é um assistente técnico especializado em .NET."},
        {"role": "user", "content": "Explique a diferença entre Task e ValueTask em C#."}
    ],
    temperature=0.3,
    max_tokens=500
)

print(response.choices[0].message.content)

// C# com Foundry Local — mesmo código, modelo local
using Azure.AI.OpenAI;
using Azure;

// Foundry Local expõe endpoint compatível com Azure OpenAI SDK
var client = new AzureOpenAIClient(
    new Uri("http://localhost:5273"),
    new AzureKeyCredential("not-needed")
);

var chatClient = client.GetChatClient("phi-4");

var response = await chatClient.CompleteChatAsync(
    new[]
    {
        new SystemChatMessage("Você é um assistente técnico .NET."),
        new UserChatMessage("Quando usar Span vs Memory?")
    },
    new ChatCompletionOptions { Temperature = 0.3f }
);

Console.WriteLine(response.Value.Content[0].Text);

Benchmarks comparativos

Modelo	Params	MATH	HumanEval	MMLU
Phi-4	14B	80.4%	82.6%	84.8%
GPT-4o-mini	?	70.2%	87.2%	82.0%
Llama 3.1 70B	70B	65.7%	80.5%	83.6%
Phi-3 Mini	3.8B	44.6%	58.5%	68.8%

Fonte: Microsoft Research, dezembro 2024. Benchmarks variam por metodologia.

Como isso se conecta

→ 02-04-04 — Open-weight em geral: Phi é open-weight com licença MIT generosa
→ 02-04-06 — Azure OpenAI Service: Phi também disponível via Azure AI Foundry (cloud)
→ 02-01-02 — Scaling laws: Phi desafia a curva de escala via qualidade de dados
→ Módulo 06 — Fine-tuning de SLMs para domínios específicos

Fontes

Textbooks Are All You Need — Phi-1 paper (Microsoft Research, 2023)
Microsoft — Introducing Phi-4 (dezembro 2024)
Hugging Face — microsoft/phi-4
Microsoft Docs — AI Foundry Local overview
Phi-3 Technical Report: A Highly Capable Language Model Locally on Your Phone