09-03-01 — Foundry Local GA (abril 2026): sem cloud, sem latência, sem custo por token
TL;DR
Azure AI Foundry Local (GA abril 2026) é o mesmo SDK e mesma API do Foundry, mas rodando completamente on-device — sem cloud, sem internet, sem custo por token. Disponível para Windows, macOS e Android. Modelos da família Phi-4 e outros SLMs (Small Language Models) são baixados localmente. Ideal para: aplicações offline, dados ultraconfidenciais que não podem sair do dispositivo, desenvolvimento local sem custo, e cenários de edge/field.
Por que Foundry Local importa
Antes do Foundry Local, "rodar LLM localmente" significava: configurar Ollama, entender quantization, gerenciar modelos manualmente, lidar com APIs incompatíveis. Foundry Local resolve isso com:
- Mesma API: código idêntico ao que usa o Foundry cloud — troca o endpoint, não o código
- Model management: download, update e gestão de modelos via CLI e SDK
- Catalog local: subconjunto do Model Catalog otimizado para rodar on-device
- Acceleração de hardware: CPU (NPU) e GPU (NVIDIA, AMD, Intel Arc) — detecção automática
Instalação
# Windows (PowerShell) ou macOS (Terminal)
# Instalar Foundry Local CLI
winget install Microsoft.FoundryLocal # Windows
brew install foundrylocal # macOS
# Verificar instalação
foundry --version
# Listar modelos disponíveis para download local
foundry model list
# Baixar modelo Phi-4-mini (3.8B params, ~2GB)
foundry model download phi-4-mini
# Iniciar servidor local (porta 5272 por padrão)
foundry service start
Mesmo código, endpoint diferente
import os
from openai import OpenAI # mesmo cliente OpenAI!
# Cloud (Foundry/Azure OpenAI)
cloud_client = OpenAI(
base_url="https://seu-projeto.services.ai.azure.com/openai",
api_key=os.environ["AZURE_API_KEY"]
)
# Local (Foundry Local - localhost)
local_client = OpenAI(
base_url="http://localhost:5272/v1",
api_key="not-needed" # sem auth local
)
# O código de chamada é IDÊNTICO
def ask_agent(client, question: str) -> str:
response = client.chat.completions.create(
model="phi-4-mini",
messages=[{"role": "user", "content": question}],
max_tokens=500
)
return response.choices[0].message.content
# Produção: usa cloud
# Dev local: usa local sem custo
print(ask_agent(local_client, "Explique o padrão CQRS em C#"))
C# com Foundry Local
using Azure.AI.Inference;
using Azure.Core;
// Foundry Local - mesma lib Azure.AI.Inference
var localEndpoint = new Uri("http://localhost:5272/v1");
var credential = new AzureKeyCredential("not-needed");
var client = new ChatCompletionsClient(localEndpoint, credential);
var response = await client.CompleteAsync(new ChatCompletionsOptions
{
Model = "phi-4-mini",
Messages =
{
new ChatRequestSystemMessage("Você é um especialista em .NET."),
new ChatRequestUserMessage("Como implementar retry com Polly v8?")
},
MaxTokens = 800
});
Console.WriteLine(response.Value.Content);
Casos de uso enterprise para Foundry Local
| Cenário | Por que local? |
|---|---|
| Análise de contratos confidenciais | Dados não saem do dispositivo — LGPD, NDA |
| Ambiente de campo (mineração, offshore) | Sem conectividade confiável |
| Desenvolvimento e testes | Zero custo de tokens durante dev |
| Android/mobile (técnicos em campo) | App offline com IA nativa |
| Latência ultra-baixa (<50ms) | Sem round-trip de rede |
| Sovereign cloud / air-gapped | Requisito regulatório de não-conectividade |
Suporte a Android
O Foundry Local SDK para Android permite rodar Phi-4-mini diretamente em dispositivos Android com NPU (ex: Snapdragon 8 Elite). Distribua apps Android com IA integrada sem depender de API externa:
// Android - Foundry Local SDK (Java/Kotlin)
// Requer: dispositivo com NPU ou GPU dedicada
// Phi-4-mini quantizado para ONNX Runtime Mobile
FoundryLocalClient client = new FoundryLocalClient.Builder()
.setModel("phi-4-mini-onnx")
.setAccelerator(Accelerator.NPU)
.build();
client.chat("Como resolver este erro: NullReferenceException em...")
.addOnCompleteListener(response -> {
textView.setText(response.getContent());
});