02-01-02 — Escala: parâmetros, dados de treino e leis de scaling

⏱ 12 min Fontes validadas em: 2026-04-29

TL;DR

Parâmetros são os pesos numéricos que codificam o "conhecimento" do modelo. As scaling laws mostram que performance melhora previsivelmente com mais parâmetros, mais dados e mais compute — mas há um ponto ótimo (Chinchilla). A corrida de escala não terminou, mas ficou mais sofisticada: qualidade dos dados e arquitetura importam tanto quanto volume bruto.

O que são parâmetros

Um LLM é essencialmente uma função matemática composta por bilhões de números — os parâmetros (ou pesos). Esses números são ajustados durante o treinamento para minimizar o erro na previsão do próximo token.

Analogia para desenvolvedores: imagine um sistema de regras condicionais com 175 bilhões de variáveis float16. Não há código explícito de "se perguntarem sobre Python, responda assim" — o comportamento emerge da interação desses pesos com a entrada.

Por que bilhões importam:

Capacidade de representação: Mais parâmetros = mais nuances capturáveis
Memória implícita: Fatos, estilos, idiomas ficam "comprimidos" nos pesos
Generalização: Modelos maiores overfitam menos, generalizam mais

💡 Insight

GPT-3 (175B parâmetros) ocupa ~350GB em float16. Rodar localmente exige múltiplas GPUs A100 de 80GB. É por isso que APIs existem — o hardware necessário está fora do alcance da maioria das empresas.

Scaling Laws: a ciência da previsão

Em 2020, Kaplan et al. (OpenAI) publicaram um resultado que transformou a engenharia de LLMs: a performance de um modelo segue leis de potência previsíveis em função de três variáveis — número de parâmetros (N), volume de dados (D) e compute (C = 6ND para treino).

graph LR N[Parâmetros N] --> P[Performance\nLoss] D[Dados D] --> P C[Compute C] --> P style P fill:#6366f1,color:#fff style N fill:#374151,color:#fff style D fill:#374151,color:#fff style C fill:#374151,color:#fff

A fórmula geral: L(N, D) ∝ N^(-αN) + D^(-αD)

Implicação prática: dado um budget de compute fixo, você pode prever antecipadamente qual combinação de N e D vai gerar o melhor modelo. Isso transforma treinamento de arte em engenharia.

Chinchilla e o ponto ótimo

Em 2022, Hoffmann et al. (DeepMind) publicaram o paper "Chinchilla" com uma correção importante às scaling laws de Kaplan. O argumento: modelos como GPT-3 foram undertrained — deveriam ter visto muito mais dados para o tamanho deles.

A regra Chinchilla: para treinamento compute-ótimo, use aproximadamente 20 tokens de dados para cada parâmetro.

Modelo	Parâmetros	Tokens de treino	Ratio tokens/param
GPT-3	175B	300B	~1.7x (undertrained)
Chinchilla	70B	1.4T	~20x (ótimo)
Llama 3 8B	8B	15T	~1875x (overtrained)

🔬 Por que "overtrained" é bom na prática

Llama 3 8B com 15T tokens de treino excede muito o ponto Chinchilla — porque o objetivo mudou. Chinchilla otimiza custo de treinamento. Mas se você vai rodar o modelo bilhões de vezes em inferência, faz sentido gastar mais no treino para ter um modelo menor e mais rápido. Llama 3 8B supera modelos muito maiores em vários benchmarks.

A corrida de escala: linha do tempo

Compute-optimal training na prática

Para empresas que eventualmente vão fazer fine-tuning ou treinar modelos próprios, a regra prática:

Defina seu budget de compute (horas de GPU × custo)
Use a regra Chinchilla para balancear N e D
Qualidade dos dados > quantidade bruta (filtrar lixo vale muito)
Modelos menores bem treinados vencem modelos grandes mal treinados

⚠️ O elefante na sala

Treinar um modelo frontier (GPT-4 class) custa estimados $50-100M em compute. Isso está fora do alcance de quase todas as empresas. O modelo de negócio correto para a maioria: usar APIs de modelos frontier ou fazer fine-tuning de modelos open-weight já treinados.

Como isso se conecta

→ 02-03-01: Custo real de pré-treinamento e como Azure viabiliza isso
→ 02-04-04: Llama 3 como exemplo de modelo "overtrained" bem-sucedido
→ 02-04-05: Phi (Microsoft): qualidade de dados vence escala bruta

Fontes

Kaplan et al. (2020) — Scaling Laws for Neural Language Models — OpenAI
Hoffmann et al. (2022) — Training Compute-Optimal Large Language Models (Chinchilla) — DeepMind
Touvron et al. (2023) — Llama 2: Open Foundation and Fine-Tuned Chat Models — Meta