02-04-04 — Llama, Mistral e o ecossistema open-weight

⏱ 12 min Fontes validadas em: 2026-04-29

TL;DR

Modelos open-weight (pesos públicos, licença variada) democratizaram o acesso à IA de alta capacidade. Llama 3 (Meta) e Mistral são os pilares do ecossistema — rodam on-premise, podem ser fine-tunados e eliminam dependência de API. DeepSeek chegou como surpresa chinesa com custo/benefício impressionante. A escolha entre open-weight e API é decisão de negócio, não de tecnologia.

Open-weight ≠ Open-source

A distinção importa para contratos e compliance:

Open-source verdadeiro: código-fonte, dados de treinamento e pesos disponíveis sob licença OSI (ex: Apache 2.0). Raridade no mundo de LLMs.
Open-weight: apenas os pesos do modelo são públicos. Você pode rodar, fazer fine-tuning e até redistribuir — mas com restrições comerciais que variam por modelo.
Closed/Proprietary: sem acesso aos pesos. Você só usa via API (GPT-4, Claude, Gemini Advanced).

⚠️ Leia a licença antes de usar em produção. Llama 3 permite uso comercial, mas proíbe redistribuição se você tiver mais de 700M MAUs. Mistral tem licença Apache 2.0 para alguns modelos e proprietária para outros. Confira sempre antes de assinar um contrato com cliente.

Llama 2 e Llama 3: o divisor de águas da Meta

Llama 2 (julho 2023)

Primeiro modelo de grande porte da Meta com pesos públicos para uso comercial. Disponível em 7B, 13B e 70B parâmetros. Representou uma ruptura: até então, modelos de 70B eram exclusivos de OpenAI e Google. A comunidade explodiu — em semanas havia dezenas de fine-tunes especializados (código, medicina, jurídico).

Llama 3 (abril 2024) e Llama 3.1/3.2/3.3

Salto qualitativo significativo. Llama 3.1 70B compete diretamente com GPT-4o em muitos benchmarks. Llama 3.2 trouxe modelos multimodais (visão) e versões tiny (1B, 3B) para edge. Llama 3.3 70B (dezembro 2024) igualou desempenho do 405B com menos recursos.

💡 Por que isso importa para a Impar. Com Llama 3 70B rodando em um servidor com 2× A100, você pode oferecer ao cliente um modelo de linguagem dentro da infraestrutura dele — sem dados saindo para a nuvem. Para clientes como Vale e Michelin, com dados sensíveis, isso é argumento de venda direto.

Mistral e Mixtral: eficiência como filosofia

A startup francesa Mistral AI surgiu em 2023 com uma proposta clara: modelos menores que superam modelos maiores de concorrentes. Como?

Grouped-Query Attention (GQA): reduz consumo de memória durante inferência sem perder qualidade.
Sliding Window Attention: trata contextos longos com memória sub-linear.
Mixture of Experts (MoE): o Mixtral 8×7B tem 46.7B parâmetros no total, mas ativa apenas ~12.9B por token — velocidade de um 12B com qualidade próxima de um 70B.

# Rodando Mistral localmente via Ollama
# Primeiro: ollama pull mistral

import ollama

response = ollama.chat(
    model='mistral',
    messages=[
        {'role': 'user', 'content': 'Explique Mixture of Experts em 3 linhas.'}
    ]
)
print(response['message']['content'])

💡 Mixtral 8×7B vs GPT-3.5. Em benchmarks de 2023, Mixtral 8×7B superou GPT-3.5 em raciocínio matemático e código — rodando localmente em hardware acessível. O modelo pesa ~26GB em 4-bit quantization (Q4).

DeepSeek: a surpresa chinesa

Em janeiro de 2025, a startup chinesa DeepSeek lançou o DeepSeek-R1 e causou impacto no mercado — as ações da Nvidia caíram 17% no dia do lançamento. Por quê?

Custo de treinamento declarado: ~$6M — fração do que modelos comparáveis custam nos EUA.
Desempenho: DeepSeek-R1 compete com o1 da OpenAI em raciocínio matemático e código.
Open-weight: pesos disponíveis publicamente, hospedados no Hugging Face.
Arquitetura MoE eficiente: DeepSeek-V3 usa 671B parâmetros totais, ativando apenas 37B por token.

⚠️ Considerações geopolíticas. DeepSeek é empresa chinesa sujeita às leis de segurança nacional da China. Para dados sensíveis de clientes brasileiros (especialmente em setores regulados), avalie o risco antes de usar via API deles. Os pesos abertos permitem rodar localmente, o que elimina esse vetor de risco.

Outros modelos relevantes

Modelo	Organização	Destaque	Licença
Falcon 180B	TII (Abu Dhabi)	Grande, open-weight	Custom
Qwen 2.5	Alibaba	Multilingual forte	Apache 2.0
Gemma 2	Google	Pequeno, eficiente	Custom permissiva
Command R+	Cohere	RAG-optimized	Custom

Open-weight vs API: quando usar cada um

Critério	Open-weight (self-hosted)	API (SaaS)
Dados sensíveis / regulados	✅ Recomendado	⚠️ Avaliar compliance
Volume alto de requisições	✅ Custo previsível	❌ Custo cresce linear
Fine-tuning customizado	✅ Total controle	⚠️ Limitado (OpenAI fine-tune)
Time-to-market rápido	❌ Infra necessária	✅ Chave na mão
Última versão do modelo	❌ Defasagem	✅ Sempre atual
CapEx zero	❌	✅ Pay-per-use

🔗 Estratégia híbrida. O padrão mais comum em enterprise: use API para protótipo e validação, migre para self-hosted quando o volume justificar ou quando compliance exigir. Manter abstração (LangChain, Semantic Kernel) desde o início facilita essa migração.

Como isso se conecta

→ 02-04-05 — Phi da Microsoft: SLMs menores ainda, focados em edge e eficiência
→ 02-03-02 — Fine-tuning e RLHF: como customizar modelos open-weight
→ 02-04-06 — Azure OpenAI: alternativa enterprise que combina poder OpenAI com compliance Azure
→ Módulo 05 — RAG com modelos open-weight (Ollama + LlamaIndex)

Fontes

Meta — Introducing Meta Llama 3 (abril 2024)
Mistral AI — Mixtral of Experts (dezembro 2023)
DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via RL (janeiro 2025)
Hugging Face — Meta Llama models
Ollama Library — modelos disponíveis para uso local