09-03-01 — Foundry Local GA (abril 2026): sem cloud, sem latência, sem custo por token

⏱ 12 minFontes validadas em: 2026-04-29

TL;DR

Azure AI Foundry Local (GA abril 2026) é o mesmo SDK e mesma API do Foundry, mas rodando completamente on-device — sem cloud, sem internet, sem custo por token. Disponível para Windows, macOS e Android. Modelos da família Phi-4 e outros SLMs (Small Language Models) são baixados localmente. Ideal para: aplicações offline, dados ultraconfidenciais que não podem sair do dispositivo, desenvolvimento local sem custo, e cenários de edge/field.

Por que Foundry Local importa

Antes do Foundry Local, "rodar LLM localmente" significava: configurar Ollama, entender quantization, gerenciar modelos manualmente, lidar com APIs incompatíveis. Foundry Local resolve isso com:

  • Mesma API: código idêntico ao que usa o Foundry cloud — troca o endpoint, não o código
  • Model management: download, update e gestão de modelos via CLI e SDK
  • Catalog local: subconjunto do Model Catalog otimizado para rodar on-device
  • Acceleração de hardware: CPU (NPU) e GPU (NVIDIA, AMD, Intel Arc) — detecção automática

Instalação

# Windows (PowerShell) ou macOS (Terminal)
# Instalar Foundry Local CLI
winget install Microsoft.FoundryLocal    # Windows
brew install foundrylocal                # macOS

# Verificar instalação
foundry --version

# Listar modelos disponíveis para download local
foundry model list

# Baixar modelo Phi-4-mini (3.8B params, ~2GB)
foundry model download phi-4-mini

# Iniciar servidor local (porta 5272 por padrão)
foundry service start

Mesmo código, endpoint diferente

import os
from openai import OpenAI  # mesmo cliente OpenAI!

# Cloud (Foundry/Azure OpenAI)
cloud_client = OpenAI(
    base_url="https://seu-projeto.services.ai.azure.com/openai",
    api_key=os.environ["AZURE_API_KEY"]
)

# Local (Foundry Local - localhost)
local_client = OpenAI(
    base_url="http://localhost:5272/v1",
    api_key="not-needed"  # sem auth local
)

# O código de chamada é IDÊNTICO
def ask_agent(client, question: str) -> str:
    response = client.chat.completions.create(
        model="phi-4-mini",
        messages=[{"role": "user", "content": question}],
        max_tokens=500
    )
    return response.choices[0].message.content

# Produção: usa cloud
# Dev local: usa local sem custo
print(ask_agent(local_client, "Explique o padrão CQRS em C#"))

C# com Foundry Local

using Azure.AI.Inference;
using Azure.Core;

// Foundry Local - mesma lib Azure.AI.Inference
var localEndpoint = new Uri("http://localhost:5272/v1");
var credential = new AzureKeyCredential("not-needed");

var client = new ChatCompletionsClient(localEndpoint, credential);

var response = await client.CompleteAsync(new ChatCompletionsOptions
{
    Model = "phi-4-mini",
    Messages =
    {
        new ChatRequestSystemMessage("Você é um especialista em .NET."),
        new ChatRequestUserMessage("Como implementar retry com Polly v8?")
    },
    MaxTokens = 800
});

Console.WriteLine(response.Value.Content);

Casos de uso enterprise para Foundry Local

CenárioPor que local?
Análise de contratos confidenciaisDados não saem do dispositivo — LGPD, NDA
Ambiente de campo (mineração, offshore)Sem conectividade confiável
Desenvolvimento e testesZero custo de tokens durante dev
Android/mobile (técnicos em campo)App offline com IA nativa
Latência ultra-baixa (<50ms)Sem round-trip de rede
Sovereign cloud / air-gappedRequisito regulatório de não-conectividade
⚠️ Limitações do Foundry Local: Apenas SLMs (Phi-4-mini, Phi-4, alguns Llama compactos). Sem GPT-4o, o3, ou modelos grandes que requerem data center. Qualidade inferior para tasks complexas de reasoning. Ideal para tasks focadas: classificação, extração, sumarização, Q&A sobre documentos.

Suporte a Android

O Foundry Local SDK para Android permite rodar Phi-4-mini diretamente em dispositivos Android com NPU (ex: Snapdragon 8 Elite). Distribua apps Android com IA integrada sem depender de API externa:

// Android - Foundry Local SDK (Java/Kotlin)
// Requer: dispositivo com NPU ou GPU dedicada
// Phi-4-mini quantizado para ONNX Runtime Mobile

FoundryLocalClient client = new FoundryLocalClient.Builder()
    .setModel("phi-4-mini-onnx")
    .setAccelerator(Accelerator.NPU)
    .build();

client.chat("Como resolver este erro: NullReferenceException em...")
    .addOnCompleteListener(response -> {
        textView.setText(response.getContent());
    });

Como isso se conecta

  • 09-03-02: modelos multimodais locais e Azure Local (edge/sovereign)
  • 09-01-03: model catalog — família Phi que roda localmente
  • 09-02-04: private networking — alternativa ao local para dados confidenciais

Fontes

  1. Azure AI Foundry Local overview — Microsoft Learn
  2. Foundry Local GA: Run AI on device — Tech Community
  3. Using Foundry Local with .NET — .NET Blog
  4. Get started with Foundry Local — Microsoft Learn