02-04-04 — Llama, Mistral e o ecossistema open-weight

⏱ 12 min Fontes validadas em: 2026-04-29

TL;DR

Modelos open-weight (pesos públicos, licença variada) democratizaram o acesso à IA de alta capacidade. Llama 3 (Meta) e Mistral são os pilares do ecossistema — rodam on-premise, podem ser fine-tunados e eliminam dependência de API. DeepSeek chegou como surpresa chinesa com custo/benefício impressionante. A escolha entre open-weight e API é decisão de negócio, não de tecnologia.

Open-weight ≠ Open-source

A distinção importa para contratos e compliance:

  • Open-source verdadeiro: código-fonte, dados de treinamento e pesos disponíveis sob licença OSI (ex: Apache 2.0). Raridade no mundo de LLMs.
  • Open-weight: apenas os pesos do modelo são públicos. Você pode rodar, fazer fine-tuning e até redistribuir — mas com restrições comerciais que variam por modelo.
  • Closed/Proprietary: sem acesso aos pesos. Você só usa via API (GPT-4, Claude, Gemini Advanced).
⚠️ Leia a licença antes de usar em produção. Llama 3 permite uso comercial, mas proíbe redistribuição se você tiver mais de 700M MAUs. Mistral tem licença Apache 2.0 para alguns modelos e proprietária para outros. Confira sempre antes de assinar um contrato com cliente.

Llama 2 e Llama 3: o divisor de águas da Meta

Llama 2 (julho 2023)

Primeiro modelo de grande porte da Meta com pesos públicos para uso comercial. Disponível em 7B, 13B e 70B parâmetros. Representou uma ruptura: até então, modelos de 70B eram exclusivos de OpenAI e Google. A comunidade explodiu — em semanas havia dezenas de fine-tunes especializados (código, medicina, jurídico).

Llama 3 (abril 2024) e Llama 3.1/3.2/3.3

Salto qualitativo significativo. Llama 3.1 70B compete diretamente com GPT-4o em muitos benchmarks. Llama 3.2 trouxe modelos multimodais (visão) e versões tiny (1B, 3B) para edge. Llama 3.3 70B (dezembro 2024) igualou desempenho do 405B com menos recursos.

💡 Por que isso importa para a Impar. Com Llama 3 70B rodando em um servidor com 2× A100, você pode oferecer ao cliente um modelo de linguagem dentro da infraestrutura dele — sem dados saindo para a nuvem. Para clientes como Vale e Michelin, com dados sensíveis, isso é argumento de venda direto.

Mistral e Mixtral: eficiência como filosofia

A startup francesa Mistral AI surgiu em 2023 com uma proposta clara: modelos menores que superam modelos maiores de concorrentes. Como?

  • Grouped-Query Attention (GQA): reduz consumo de memória durante inferência sem perder qualidade.
  • Sliding Window Attention: trata contextos longos com memória sub-linear.
  • Mixture of Experts (MoE): o Mixtral 8×7B tem 46.7B parâmetros no total, mas ativa apenas ~12.9B por token — velocidade de um 12B com qualidade próxima de um 70B.
# Rodando Mistral localmente via Ollama
# Primeiro: ollama pull mistral

import ollama

response = ollama.chat(
    model='mistral',
    messages=[
        {'role': 'user', 'content': 'Explique Mixture of Experts em 3 linhas.'}
    ]
)
print(response['message']['content'])
💡 Mixtral 8×7B vs GPT-3.5. Em benchmarks de 2023, Mixtral 8×7B superou GPT-3.5 em raciocínio matemático e código — rodando localmente em hardware acessível. O modelo pesa ~26GB em 4-bit quantization (Q4).

DeepSeek: a surpresa chinesa

Em janeiro de 2025, a startup chinesa DeepSeek lançou o DeepSeek-R1 e causou impacto no mercado — as ações da Nvidia caíram 17% no dia do lançamento. Por quê?

  • Custo de treinamento declarado: ~$6M — fração do que modelos comparáveis custam nos EUA.
  • Desempenho: DeepSeek-R1 compete com o1 da OpenAI em raciocínio matemático e código.
  • Open-weight: pesos disponíveis publicamente, hospedados no Hugging Face.
  • Arquitetura MoE eficiente: DeepSeek-V3 usa 671B parâmetros totais, ativando apenas 37B por token.
⚠️ Considerações geopolíticas. DeepSeek é empresa chinesa sujeita às leis de segurança nacional da China. Para dados sensíveis de clientes brasileiros (especialmente em setores regulados), avalie o risco antes de usar via API deles. Os pesos abertos permitem rodar localmente, o que elimina esse vetor de risco.

Outros modelos relevantes

ModeloOrganizaçãoDestaqueLicença
Falcon 180BTII (Abu Dhabi)Grande, open-weightCustom
Qwen 2.5AlibabaMultilingual forteApache 2.0
Gemma 2GooglePequeno, eficienteCustom permissiva
Command R+CohereRAG-optimizedCustom

Open-weight vs API: quando usar cada um

CritérioOpen-weight (self-hosted)API (SaaS)
Dados sensíveis / regulados✅ Recomendado⚠️ Avaliar compliance
Volume alto de requisições✅ Custo previsível❌ Custo cresce linear
Fine-tuning customizado✅ Total controle⚠️ Limitado (OpenAI fine-tune)
Time-to-market rápido❌ Infra necessária✅ Chave na mão
Última versão do modelo❌ Defasagem✅ Sempre atual
CapEx zero✅ Pay-per-use
🔗 Estratégia híbrida. O padrão mais comum em enterprise: use API para protótipo e validação, migre para self-hosted quando o volume justificar ou quando compliance exigir. Manter abstração (LangChain, Semantic Kernel) desde o início facilita essa migração.

Como isso se conecta

  • 02-04-05 — Phi da Microsoft: SLMs menores ainda, focados em edge e eficiência
  • 02-03-02 — Fine-tuning e RLHF: como customizar modelos open-weight
  • 02-04-06 — Azure OpenAI: alternativa enterprise que combina poder OpenAI com compliance Azure
  • → Módulo 05 — RAG com modelos open-weight (Ollama + LlamaIndex)

Fontes

  1. Meta — Introducing Meta Llama 3 (abril 2024)
  2. Mistral AI — Mixtral of Experts (dezembro 2023)
  3. DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via RL (janeiro 2025)
  4. Hugging Face — Meta Llama models
  5. Ollama Library — modelos disponíveis para uso local