02-01-02 — Escala: parâmetros, dados de treino e leis de scaling

⏱ 12 min Fontes validadas em: 2026-04-29

TL;DR

Parâmetros são os pesos numéricos que codificam o "conhecimento" do modelo. As scaling laws mostram que performance melhora previsivelmente com mais parâmetros, mais dados e mais compute — mas há um ponto ótimo (Chinchilla). A corrida de escala não terminou, mas ficou mais sofisticada: qualidade dos dados e arquitetura importam tanto quanto volume bruto.

O que são parâmetros

Um LLM é essencialmente uma função matemática composta por bilhões de números — os parâmetros (ou pesos). Esses números são ajustados durante o treinamento para minimizar o erro na previsão do próximo token.

Analogia para desenvolvedores: imagine um sistema de regras condicionais com 175 bilhões de variáveis float16. Não há código explícito de "se perguntarem sobre Python, responda assim" — o comportamento emerge da interação desses pesos com a entrada.

Por que bilhões importam:

  • Capacidade de representação: Mais parâmetros = mais nuances capturáveis
  • Memória implícita: Fatos, estilos, idiomas ficam "comprimidos" nos pesos
  • Generalização: Modelos maiores overfitam menos, generalizam mais
💡 Insight

GPT-3 (175B parâmetros) ocupa ~350GB em float16. Rodar localmente exige múltiplas GPUs A100 de 80GB. É por isso que APIs existem — o hardware necessário está fora do alcance da maioria das empresas.

Scaling Laws: a ciência da previsão

Em 2020, Kaplan et al. (OpenAI) publicaram um resultado que transformou a engenharia de LLMs: a performance de um modelo segue leis de potência previsíveis em função de três variáveis — número de parâmetros (N), volume de dados (D) e compute (C = 6ND para treino).

graph LR N[Parâmetros N] --> P[Performance\nLoss] D[Dados D] --> P C[Compute C] --> P style P fill:#6366f1,color:#fff style N fill:#374151,color:#fff style D fill:#374151,color:#fff style C fill:#374151,color:#fff

A fórmula geral: L(N, D) ∝ N^(-αN) + D^(-αD)

Implicação prática: dado um budget de compute fixo, você pode prever antecipadamente qual combinação de N e D vai gerar o melhor modelo. Isso transforma treinamento de arte em engenharia.

Chinchilla e o ponto ótimo

Em 2022, Hoffmann et al. (DeepMind) publicaram o paper "Chinchilla" com uma correção importante às scaling laws de Kaplan. O argumento: modelos como GPT-3 foram undertrained — deveriam ter visto muito mais dados para o tamanho deles.

A regra Chinchilla: para treinamento compute-ótimo, use aproximadamente 20 tokens de dados para cada parâmetro.

Modelo Parâmetros Tokens de treino Ratio tokens/param
GPT-3 175B 300B ~1.7x (undertrained)
Chinchilla 70B 1.4T ~20x (ótimo)
Llama 3 8B 8B 15T ~1875x (overtrained)
🔬 Por que "overtrained" é bom na prática

Llama 3 8B com 15T tokens de treino excede muito o ponto Chinchilla — porque o objetivo mudou. Chinchilla otimiza custo de treinamento. Mas se você vai rodar o modelo bilhões de vezes em inferência, faz sentido gastar mais no treino para ter um modelo menor e mais rápido. Llama 3 8B supera modelos muito maiores em vários benchmarks.

A corrida de escala: linha do tempo

timeline title Evolução de parâmetros 2018 : GPT-1 (117M) 2019 : GPT-2 (1.5B) 2020 : GPT-3 (175B) 2021 : Gopher (280B) | PaLM (540B) 2022 : Chinchilla (70B, mas melhor) 2023 : GPT-4 (estimado ~1T MoE) | Llama 2 (70B) 2024 : Gemini Ultra | Llama 3 (405B) 2025 : GPT-4o | o1 | Claude 4 | Gemini 2.5

Compute-optimal training na prática

Para empresas que eventualmente vão fazer fine-tuning ou treinar modelos próprios, a regra prática:

  1. Defina seu budget de compute (horas de GPU × custo)
  2. Use a regra Chinchilla para balancear N e D
  3. Qualidade dos dados > quantidade bruta (filtrar lixo vale muito)
  4. Modelos menores bem treinados vencem modelos grandes mal treinados
⚠️ O elefante na sala

Treinar um modelo frontier (GPT-4 class) custa estimados $50-100M em compute. Isso está fora do alcance de quase todas as empresas. O modelo de negócio correto para a maioria: usar APIs de modelos frontier ou fazer fine-tuning de modelos open-weight já treinados.

Como isso se conecta

  • 02-03-01: Custo real de pré-treinamento e como Azure viabiliza isso
  • 02-04-04: Llama 3 como exemplo de modelo "overtrained" bem-sucedido
  • 02-04-05: Phi (Microsoft): qualidade de dados vence escala bruta

Fontes

  1. Kaplan et al. (2020) — Scaling Laws for Neural Language Models — OpenAI
  2. Hoffmann et al. (2022) — Training Compute-Optimal Large Language Models (Chinchilla) — DeepMind
  3. Touvron et al. (2023) — Llama 2: Open Foundation and Fine-Tuned Chat Models — Meta