02-03-02 — Fine-tuning, instruction tuning e RLHF
TL;DR
Fine-tuning especializa o modelo base em uma tarefa. Instruction tuning ensina o modelo a seguir instruções. RLHF (Reinforcement Learning from Human Feedback) alinha o modelo com preferências humanas usando feedback de avaliadores. O ChatGPT foi o primeiro produto a mostrar o impacto disso para o público geral — e o mundo mudou.
Do modelo base ao assistente: três etapas
Fine-tuning: especializar para uma tarefa
Fine-tuning é continuar o treinamento de um modelo pré-treinado em um dataset menor e específico. Os pesos já carregam conhecimento geral — você está apenas "inclinando" o modelo em direção a um comportamento desejado.
Casos de uso comuns para empresas:
- Adaptar para domínio específico (jurídico, médico, código proprietário)
- Ajustar tom e estilo de resposta
- Ensinar formatos de saída específicos (JSON estruturado, templates)
- Reduzir latência usando modelo menor fine-tunado vs modelo grande genérico
Fine-tuning completo atualiza todos os bilhões de pesos — caro e arriscado (catastrophic forgetting). Técnicas PEFT (Parameter-Efficient Fine-Tuning) como LoRA (Low-Rank Adaptation) e QLoRA atualizam apenas uma fração dos parâmetros (<1%), obtendo 80-90% dos benefícios com 10% do custo. Para a maioria dos casos práticos, LoRA é o caminho.
Instruction Tuning: aprender a seguir ordens
O modelo base sabe completar texto — mas se você digitar "traduza para inglês: 'Bom dia'", ele pode responder com outro exemplo de frase ou continuar o texto, não com a tradução.
Instruction tuning usa um dataset de pares (instrução, resposta desejada) para ensinar o modelo a seguir o formato instrução → resposta. O paper InstructGPT (2022) foi o marco — GPT-3 + instruction tuning resultou em um modelo significativamente mais útil.
# Formato típico de dataset de instruction tuning
{
"instruction": "Resuma o seguinte texto em um parágrafo:",
"input": "A Revolução Industrial foi...",
"output": "A Revolução Industrial transformou..."
}
# Alpaca format (Stanford Alpaca dataset)
{
"instruction": "Classifique o sentimento do texto.",
"input": "O produto chegou quebrado e o suporte não respondeu.",
"output": "Negativo"
}
RLHF: o que é e por que importa
Instruction tuning resolve "seguir instruções". RLHF resolve "dar respostas que humanos preferem". São problemas diferentes: uma instrução pode ter várias respostas corretas, mas algumas são melhores que outras em utilidade, segurança e clareza.
O pipeline RLHF em 3 fases:
Por que PPO é complexo:
- Precisa manter 4 modelos em memória simultaneamente (policy, reference, reward, value)
- Instável: hiperparâmetros errados geram "reward hacking" (modelo aprende a enganar o reward model)
- Caro: múltiplas forward/backward passes por sample
O "momento ChatGPT"
GPT-3 existia desde 2020 como API. Era impressionante para pesquisadores, mas não para o público. ChatGPT (novembro 2022) adicionou RLHF sobre GPT-3.5 e criou o primeiro produto de IA que:
- Seguia instruções de forma confiável
- Recusava pedidos perigosos graciosamente
- Mantinha conversação coherente
- Era seguro o suficiente para uso geral
1 milhão de usuários em 5 dias. 100 milhões em 2 meses. RLHF foi o diferencial — não a arquitetura.
O reward model é treinado para prever qual resposta humanos preferem — mas "humanos" significa "avaliadores contratados" com suas próprias perspectivas culturais, educacionais e de valores. Isso explica parte dos vieses nos modelos RLHF: os "valores" do modelo refletem os valores dos avaliadores, que não representam necessariamente toda a humanidade.
Como isso se conecta
Fontes
- Ouyang et al. (2022) — Training language models to follow instructions with human feedback (InstructGPT)
- Hu et al. (2021) — LoRA: Low-Rank Adaptation of Large Language Models
- Schulman et al. (2017) — Proximal Policy Optimization Algorithms (PPO)
- Stiennon et al. (2020) — Learning to summarize from human feedback