02-03-02 — Fine-tuning, instruction tuning e RLHF

⏱ 15 min Fontes validadas em: 2026-04-29

TL;DR

Fine-tuning especializa o modelo base em uma tarefa. Instruction tuning ensina o modelo a seguir instruções. RLHF (Reinforcement Learning from Human Feedback) alinha o modelo com preferências humanas usando feedback de avaliadores. O ChatGPT foi o primeiro produto a mostrar o impacto disso para o público geral — e o mundo mudou.

Do modelo base ao assistente: três etapas

flowchart LR BASE[Modelo Base\npré-treinado] --> SFT[SFT\nSupervised Fine-Tuning] SFT --> RM[Reward Model\ntreinado com preferências humanas] RM --> PPO[PPO\nReinforcement Learning] PPO --> CHAT[Modelo de Chat\nalinhado com humanos] style BASE fill:#374151,color:#fff style SFT fill:#1e3a5f,color:#fff style RM fill:#3a1e2f,color:#fff style PPO fill:#1e3a2f,color:#fff style CHAT fill:#6366f1,color:#fff

Fine-tuning: especializar para uma tarefa

Fine-tuning é continuar o treinamento de um modelo pré-treinado em um dataset menor e específico. Os pesos já carregam conhecimento geral — você está apenas "inclinando" o modelo em direção a um comportamento desejado.

Casos de uso comuns para empresas:

Adaptar para domínio específico (jurídico, médico, código proprietário)
Ajustar tom e estilo de resposta
Ensinar formatos de saída específicos (JSON estruturado, templates)
Reduzir latência usando modelo menor fine-tunado vs modelo grande genérico

⚠️ Full fine-tuning vs. PEFT

Fine-tuning completo atualiza todos os bilhões de pesos — caro e arriscado (catastrophic forgetting). Técnicas PEFT (Parameter-Efficient Fine-Tuning) como LoRA (Low-Rank Adaptation) e QLoRA atualizam apenas uma fração dos parâmetros (<1%), obtendo 80-90% dos benefícios com 10% do custo. Para a maioria dos casos práticos, LoRA é o caminho.

Instruction Tuning: aprender a seguir ordens

O modelo base sabe completar texto — mas se você digitar "traduza para inglês: 'Bom dia'", ele pode responder com outro exemplo de frase ou continuar o texto, não com a tradução.

Instruction tuning usa um dataset de pares (instrução, resposta desejada) para ensinar o modelo a seguir o formato instrução → resposta. O paper InstructGPT (2022) foi o marco — GPT-3 + instruction tuning resultou em um modelo significativamente mais útil.

# Formato típico de dataset de instruction tuning
{
    "instruction": "Resuma o seguinte texto em um parágrafo:",
    "input": "A Revolução Industrial foi...",
    "output": "A Revolução Industrial transformou..."
}

# Alpaca format (Stanford Alpaca dataset)
{
    "instruction": "Classifique o sentimento do texto.",
    "input": "O produto chegou quebrado e o suporte não respondeu.",
    "output": "Negativo"
}

RLHF: o que é e por que importa

Instruction tuning resolve "seguir instruções". RLHF resolve "dar respostas que humanos preferem". São problemas diferentes: uma instrução pode ter várias respostas corretas, mas algumas são melhores que outras em utilidade, segurança e clareza.

O pipeline RLHF em 3 fases:

flowchart TB subgraph F1[Fase 1 — SFT] P1[Prompts] --> DEMO[Demonstrações humanas de qualidade] DEMO --> SFT_M[Modelo SFT] end subgraph F2[Fase 2 — Reward Model] P2[Prompts] --> SFT_M2[Modelo SFT gera respostas] SFT_M2 --> RANK[Avaliadores humanos rankeiam respostas] RANK --> RM[Reward Model treinado] end subgraph F3[Fase 3 — RL com PPO] P3[Novos prompts] --> POL[Policy model gera resposta] POL --> SCORE[Reward Model pontua] SCORE --> PPO_UP[PPO atualiza pesos do policy] PPO_UP --> POL end SFT_M --> SFT_M2 RM --> SCORE style F1 fill:#1e3a5f,stroke:#3b82f6 style F2 fill:#3a1e2f,stroke:#a855f7 style F3 fill:#1e3a2f,stroke:#22c55e

Por que PPO é complexo:

Precisa manter 4 modelos em memória simultaneamente (policy, reference, reward, value)
Instável: hiperparâmetros errados geram "reward hacking" (modelo aprende a enganar o reward model)
Caro: múltiplas forward/backward passes por sample

O "momento ChatGPT"

GPT-3 existia desde 2020 como API. Era impressionante para pesquisadores, mas não para o público. ChatGPT (novembro 2022) adicionou RLHF sobre GPT-3.5 e criou o primeiro produto de IA que:

Seguia instruções de forma confiável
Recusava pedidos perigosos graciosamente
Mantinha conversação coherente
Era seguro o suficiente para uso geral

1 milhão de usuários em 5 dias. 100 milhões em 2 meses. RLHF foi o diferencial — não a arquitetura.

🔬 O que o reward model aprende

O reward model é treinado para prever qual resposta humanos preferem — mas "humanos" significa "avaliadores contratados" com suas próprias perspectivas culturais, educacionais e de valores. Isso explica parte dos vieses nos modelos RLHF: os "valores" do modelo refletem os valores dos avaliadores, que não representam necessariamente toda a humanidade.

Como isso se conecta

→ 02-03-03: DPO e alternativas que simplificam (e às vezes superam) RLHF
→ 02-04-02: Constitutional AI (Anthropic) como variante do RLHF
→ 02-04-06: Azure AI Foundry oferece serviços de fine-tuning gerenciado

Fontes

Ouyang et al. (2022) — Training language models to follow instructions with human feedback (InstructGPT)
Hu et al. (2021) — LoRA: Low-Rank Adaptation of Large Language Models
Schulman et al. (2017) — Proximal Policy Optimization Algorithms (PPO)
Stiennon et al. (2020) — Learning to summarize from human feedback