02-04-04 — Llama, Mistral e o ecossistema open-weight
TL;DR
Modelos open-weight (pesos públicos, licença variada) democratizaram o acesso à IA de alta capacidade. Llama 3 (Meta) e Mistral são os pilares do ecossistema — rodam on-premise, podem ser fine-tunados e eliminam dependência de API. DeepSeek chegou como surpresa chinesa com custo/benefício impressionante. A escolha entre open-weight e API é decisão de negócio, não de tecnologia.
Open-weight ≠ Open-source
A distinção importa para contratos e compliance:
- Open-source verdadeiro: código-fonte, dados de treinamento e pesos disponíveis sob licença OSI (ex: Apache 2.0). Raridade no mundo de LLMs.
- Open-weight: apenas os pesos do modelo são públicos. Você pode rodar, fazer fine-tuning e até redistribuir — mas com restrições comerciais que variam por modelo.
- Closed/Proprietary: sem acesso aos pesos. Você só usa via API (GPT-4, Claude, Gemini Advanced).
Llama 2 e Llama 3: o divisor de águas da Meta
Llama 2 (julho 2023)
Primeiro modelo de grande porte da Meta com pesos públicos para uso comercial. Disponível em 7B, 13B e 70B parâmetros. Representou uma ruptura: até então, modelos de 70B eram exclusivos de OpenAI e Google. A comunidade explodiu — em semanas havia dezenas de fine-tunes especializados (código, medicina, jurídico).
Llama 3 (abril 2024) e Llama 3.1/3.2/3.3
Salto qualitativo significativo. Llama 3.1 70B compete diretamente com GPT-4o em muitos benchmarks. Llama 3.2 trouxe modelos multimodais (visão) e versões tiny (1B, 3B) para edge. Llama 3.3 70B (dezembro 2024) igualou desempenho do 405B com menos recursos.
Mistral e Mixtral: eficiência como filosofia
A startup francesa Mistral AI surgiu em 2023 com uma proposta clara: modelos menores que superam modelos maiores de concorrentes. Como?
- Grouped-Query Attention (GQA): reduz consumo de memória durante inferência sem perder qualidade.
- Sliding Window Attention: trata contextos longos com memória sub-linear.
- Mixture of Experts (MoE): o Mixtral 8×7B tem 46.7B parâmetros no total, mas ativa apenas ~12.9B por token — velocidade de um 12B com qualidade próxima de um 70B.
# Rodando Mistral localmente via Ollama
# Primeiro: ollama pull mistral
import ollama
response = ollama.chat(
model='mistral',
messages=[
{'role': 'user', 'content': 'Explique Mixture of Experts em 3 linhas.'}
]
)
print(response['message']['content'])
DeepSeek: a surpresa chinesa
Em janeiro de 2025, a startup chinesa DeepSeek lançou o DeepSeek-R1 e causou impacto no mercado — as ações da Nvidia caíram 17% no dia do lançamento. Por quê?
- Custo de treinamento declarado: ~$6M — fração do que modelos comparáveis custam nos EUA.
- Desempenho: DeepSeek-R1 compete com o1 da OpenAI em raciocínio matemático e código.
- Open-weight: pesos disponíveis publicamente, hospedados no Hugging Face.
- Arquitetura MoE eficiente: DeepSeek-V3 usa 671B parâmetros totais, ativando apenas 37B por token.
Outros modelos relevantes
| Modelo | Organização | Destaque | Licença |
|---|---|---|---|
| Falcon 180B | TII (Abu Dhabi) | Grande, open-weight | Custom |
| Qwen 2.5 | Alibaba | Multilingual forte | Apache 2.0 |
| Gemma 2 | Pequeno, eficiente | Custom permissiva | |
| Command R+ | Cohere | RAG-optimized | Custom |
Open-weight vs API: quando usar cada um
| Critério | Open-weight (self-hosted) | API (SaaS) |
|---|---|---|
| Dados sensíveis / regulados | ✅ Recomendado | ⚠️ Avaliar compliance |
| Volume alto de requisições | ✅ Custo previsível | ❌ Custo cresce linear |
| Fine-tuning customizado | ✅ Total controle | ⚠️ Limitado (OpenAI fine-tune) |
| Time-to-market rápido | ❌ Infra necessária | ✅ Chave na mão |
| Última versão do modelo | ❌ Defasagem | ✅ Sempre atual |
| CapEx zero | ❌ | ✅ Pay-per-use |
Como isso se conecta
- → 02-04-05 — Phi da Microsoft: SLMs menores ainda, focados em edge e eficiência
- → 02-03-02 — Fine-tuning e RLHF: como customizar modelos open-weight
- → 02-04-06 — Azure OpenAI: alternativa enterprise que combina poder OpenAI com compliance Azure
- → Módulo 05 — RAG com modelos open-weight (Ollama + LlamaIndex)