02-01-02 — Escala: parâmetros, dados de treino e leis de scaling
TL;DR
Parâmetros são os pesos numéricos que codificam o "conhecimento" do modelo. As scaling laws mostram que performance melhora previsivelmente com mais parâmetros, mais dados e mais compute — mas há um ponto ótimo (Chinchilla). A corrida de escala não terminou, mas ficou mais sofisticada: qualidade dos dados e arquitetura importam tanto quanto volume bruto.
O que são parâmetros
Um LLM é essencialmente uma função matemática composta por bilhões de números — os parâmetros (ou pesos). Esses números são ajustados durante o treinamento para minimizar o erro na previsão do próximo token.
Analogia para desenvolvedores: imagine um sistema de regras condicionais com 175 bilhões de variáveis float16. Não há código explícito de "se perguntarem sobre Python, responda assim" — o comportamento emerge da interação desses pesos com a entrada.
Por que bilhões importam:
- Capacidade de representação: Mais parâmetros = mais nuances capturáveis
- Memória implícita: Fatos, estilos, idiomas ficam "comprimidos" nos pesos
- Generalização: Modelos maiores overfitam menos, generalizam mais
GPT-3 (175B parâmetros) ocupa ~350GB em float16. Rodar localmente exige múltiplas GPUs A100 de 80GB. É por isso que APIs existem — o hardware necessário está fora do alcance da maioria das empresas.
Scaling Laws: a ciência da previsão
Em 2020, Kaplan et al. (OpenAI) publicaram um resultado que transformou a engenharia de LLMs: a performance de um modelo segue leis de potência previsíveis em função de três variáveis — número de parâmetros (N), volume de dados (D) e compute (C = 6ND para treino).
A fórmula geral: L(N, D) ∝ N^(-αN) + D^(-αD)
Implicação prática: dado um budget de compute fixo, você pode prever antecipadamente qual combinação de N e D vai gerar o melhor modelo. Isso transforma treinamento de arte em engenharia.
Chinchilla e o ponto ótimo
Em 2022, Hoffmann et al. (DeepMind) publicaram o paper "Chinchilla" com uma correção importante às scaling laws de Kaplan. O argumento: modelos como GPT-3 foram undertrained — deveriam ter visto muito mais dados para o tamanho deles.
A regra Chinchilla: para treinamento compute-ótimo, use aproximadamente 20 tokens de dados para cada parâmetro.
| Modelo | Parâmetros | Tokens de treino | Ratio tokens/param |
|---|---|---|---|
| GPT-3 | 175B | 300B | ~1.7x (undertrained) |
| Chinchilla | 70B | 1.4T | ~20x (ótimo) |
| Llama 3 8B | 8B | 15T | ~1875x (overtrained) |
Llama 3 8B com 15T tokens de treino excede muito o ponto Chinchilla — porque o objetivo mudou. Chinchilla otimiza custo de treinamento. Mas se você vai rodar o modelo bilhões de vezes em inferência, faz sentido gastar mais no treino para ter um modelo menor e mais rápido. Llama 3 8B supera modelos muito maiores em vários benchmarks.
A corrida de escala: linha do tempo
Compute-optimal training na prática
Para empresas que eventualmente vão fazer fine-tuning ou treinar modelos próprios, a regra prática:
- Defina seu budget de compute (horas de GPU × custo)
- Use a regra Chinchilla para balancear N e D
- Qualidade dos dados > quantidade bruta (filtrar lixo vale muito)
- Modelos menores bem treinados vencem modelos grandes mal treinados
Treinar um modelo frontier (GPT-4 class) custa estimados $50-100M em compute. Isso está fora do alcance de quase todas as empresas. O modelo de negócio correto para a maioria: usar APIs de modelos frontier ou fazer fine-tuning de modelos open-weight já treinados.
Como isso se conecta
Fontes
- Kaplan et al. (2020) — Scaling Laws for Neural Language Models — OpenAI
- Hoffmann et al. (2022) — Training Compute-Optimal Large Language Models (Chinchilla) — DeepMind
- Touvron et al. (2023) — Llama 2: Open Foundation and Fine-Tuned Chat Models — Meta