02-03-03 — DPO, RLAIF e técnicas pós-RLHF
TL;DR
RLHF com PPO é poderoso, mas complexo e caro. DPO (Direct Preference Optimization) elimina o reward model e o RL, alcançando resultados similares com treinamento supervisionado simples. RLAIF substitui avaliadores humanos por um LLM. Constitutional AI (Anthropic) combina critérios explícitos com auto-avaliação. O resultado: alinhar modelos ficou acessível a quem tem um bom dataset de preferências.
O problema com RLHF clássico
RLHF com PPO (visto em 02-03-02) funciona, mas é engenheiramente pesado:
- 4 modelos em memória simultaneamente (policy, reference, reward, value)
- PPO é instável — reward hacking é comum
- Coleta de feedback humano é cara e lenta
- Hiperparâmetros difíceis de calibrar
A comunidade passou 2022-2024 desenvolvendo alternativas mais simples.
DPO: Direct Preference Optimization
Rafailov et al. (2023) demonstraram uma insight matemático elegante: o objetivo do RLHF pode ser reformulado diretamente como perda supervisionada sobre pares de respostas preferidas e rejeitadas — sem precisar de reward model ou RL.
O dataset de preferências para DPO consiste em triplas:
# Formato de dataset DPO
{
"prompt": "Explique o que é um deadlock em sistemas distribuídos.",
"chosen": "Um deadlock ocorre quando dois ou mais processos ficam... [resposta completa e clara]",
"rejected": "Deadlock é um problema de sistemas. [resposta vaga]"
}
Na prática, DPO usa SFT loss modificada — treinamento simples, sem RL. O resultado é competitive com RLHF em muitos benchmarks, e muito mais fácil de implementar.
Se sua empresa quer alinhar um modelo open-weight (Llama, Mistral) para um caso de uso específico — garantir respostas no tom correto, recusar pedidos fora do escopo, preferir formatos específicos — DPO é a técnica mais acessível. Você precisa de ~1.000-10.000 pares de preferências e uma GPU A100 por alguns horas. Está ao alcance de um time de ML médio.
RLAIF: substituir humanos por IA
Coletar feedback humano é o gargalo do RLHF. RLAIF (RL from AI Feedback) usa um LLM como substituto para o avaliador humano. O modelo "juiz" avalia qual resposta é melhor, e esse julgamento alimenta o pipeline de alinhamento.
Vantagens:
- Escala: gerar 1 milhão de avaliações custa centavos
- Consistência: sem viés de avaliadores diferentes
- Velocidade: sem gargalo humano
Desvantagens:
- Herda vieses do modelo juiz
- Pode amplificar erros sistêmicos
- Não captura preferências humanas genuínas — captura o que o LLM acha que humanos preferem
Constitutional AI (Anthropic)
A Anthropic introduziu uma abordagem diferente: em vez de apenas aprender de feedback humano, o modelo aprende de um conjunto explícito de princípios — a "constituição".
Benefícios: os critérios de alinhamento são auditáveis e explícitos. Se você sabe "por que" o modelo se comporta de determinada forma, é mais fácil corrigir.
O estado atual: técnicas combinadas
Modelos modernos (Llama 3, Mistral, GPT-4o) combinam várias técnicas:
| Técnica | Papel | Custo relativo |
|---|---|---|
| SFT (instruction tuning) | Base de seguimento de instruções | Baixo |
| DPO | Alinhamento de preferências sem RL | Médio |
| RLHF / PPO | Alinhamento fino com preferências humanas | Alto |
| RLAIF | Escalar feedback com IA como juiz | Baixo (após setup) |
| Constitutional AI | Alinhamento baseado em princípios auditáveis | Médio |
A técnica mais promissora em 2024-2025: Process Reward Models (PRM) — modelos que avaliam não apenas a resposta final, mas cada passo do raciocínio. Usados em modelos de raciocínio como o-1 (OpenAI) e QwQ (Qwen). PRMs permitem treinar modelos que "pensam antes de responder", verificando o próprio raciocínio passo a passo.
Como isso se conecta
Fontes
- Rafailov et al. (2023) — Direct Preference Optimization: Your Language Model is Secretly a Reward Model
- Bai et al. (2022) — Constitutional AI: Harmlessness from AI Feedback — Anthropic
- Lee et al. (2023) — RLAIF: Scaling Reinforcement Learning from Human Feedback with AI Feedback