02-03-03 — DPO, RLAIF e técnicas pós-RLHF

⏱ 12 min Fontes validadas em: 2026-04-29

TL;DR

RLHF com PPO é poderoso, mas complexo e caro. DPO (Direct Preference Optimization) elimina o reward model e o RL, alcançando resultados similares com treinamento supervisionado simples. RLAIF substitui avaliadores humanos por um LLM. Constitutional AI (Anthropic) combina critérios explícitos com auto-avaliação. O resultado: alinhar modelos ficou acessível a quem tem um bom dataset de preferências.

O problema com RLHF clássico

RLHF com PPO (visto em 02-03-02) funciona, mas é engenheiramente pesado:

4 modelos em memória simultaneamente (policy, reference, reward, value)
PPO é instável — reward hacking é comum
Coleta de feedback humano é cara e lenta
Hiperparâmetros difíceis de calibrar

A comunidade passou 2022-2024 desenvolvendo alternativas mais simples.

DPO: Direct Preference Optimization

Rafailov et al. (2023) demonstraram uma insight matemático elegante: o objetivo do RLHF pode ser reformulado diretamente como perda supervisionada sobre pares de respostas preferidas e rejeitadas — sem precisar de reward model ou RL.

graph LR subgraph RLHF[RLHF Clássico] P1[Prompt] --> GEN[Gera A e B] GEN --> HUMAN[Avaliador humano\nA > B] HUMAN --> RM[Treina Reward Model] RM --> PPO[PPO ajusta policy] end subgraph DPO[DPO] P2[Prompt] --> DATA[Dataset de preferências\nA > B] DATA --> LOSS[Loss direta:\nmaximiza log-prob de A\nminimiza log-prob de B] LOSS --> MODEL[Modelo alinhado] end style DPO fill:#1e3a2f,stroke:#22c55e style RLHF fill:#3a1e1e,stroke:#ef4444

O dataset de preferências para DPO consiste em triplas:

# Formato de dataset DPO
{
    "prompt": "Explique o que é um deadlock em sistemas distribuídos.",
    "chosen": "Um deadlock ocorre quando dois ou mais processos ficam...  [resposta completa e clara]",
    "rejected": "Deadlock é um problema de sistemas. [resposta vaga]"
}

Na prática, DPO usa SFT loss modificada — treinamento simples, sem RL. O resultado é competitive com RLHF em muitos benchmarks, e muito mais fácil de implementar.

💡 DPO para empresas

Se sua empresa quer alinhar um modelo open-weight (Llama, Mistral) para um caso de uso específico — garantir respostas no tom correto, recusar pedidos fora do escopo, preferir formatos específicos — DPO é a técnica mais acessível. Você precisa de ~1.000-10.000 pares de preferências e uma GPU A100 por alguns horas. Está ao alcance de um time de ML médio.

RLAIF: substituir humanos por IA

Coletar feedback humano é o gargalo do RLHF. RLAIF (RL from AI Feedback) usa um LLM como substituto para o avaliador humano. O modelo "juiz" avalia qual resposta é melhor, e esse julgamento alimenta o pipeline de alinhamento.

Vantagens:

Escala: gerar 1 milhão de avaliações custa centavos
Consistência: sem viés de avaliadores diferentes
Velocidade: sem gargalo humano

Desvantagens:

Herda vieses do modelo juiz
Pode amplificar erros sistêmicos
Não captura preferências humanas genuínas — captura o que o LLM acha que humanos preferem

Constitutional AI (Anthropic)

A Anthropic introduziu uma abordagem diferente: em vez de apenas aprender de feedback humano, o modelo aprende de um conjunto explícito de princípios — a "constituição".

flowchart TB CONST["Constituição:\n1. Seja útil\n2. Não cause dano\n3. Seja honesto\n..."] --> CRITIC[Modelo critica suas próprias respostas\ncontra os princípios] CRITIC --> REVISE[Revisa a resposta] REVISE --> RL[RLHF com AI feedback\npara ranker baseado na constituição] RL --> CLAUDE[Claude] style CONST fill:#374151,color:#fff style CLAUDE fill:#6366f1,color:#fff

Benefícios: os critérios de alinhamento são auditáveis e explícitos. Se você sabe "por que" o modelo se comporta de determinada forma, é mais fácil corrigir.

O estado atual: técnicas combinadas

Modelos modernos (Llama 3, Mistral, GPT-4o) combinam várias técnicas:

Técnica	Papel	Custo relativo
SFT (instruction tuning)	Base de seguimento de instruções	Baixo
DPO	Alinhamento de preferências sem RL	Médio
RLHF / PPO	Alinhamento fino com preferências humanas	Alto
RLAIF	Escalar feedback com IA como juiz	Baixo (após setup)
Constitutional AI	Alinhamento baseado em princípios auditáveis	Médio

🔬 O futuro: process reward models

A técnica mais promissora em 2024-2025: Process Reward Models (PRM) — modelos que avaliam não apenas a resposta final, mas cada passo do raciocínio. Usados em modelos de raciocínio como o-1 (OpenAI) e QwQ (Qwen). PRMs permitem treinar modelos que "pensam antes de responder", verificando o próprio raciocínio passo a passo.

Como isso se conecta

→ 02-03-02: RLHF clássico que DPO/RLAIF simplificam
→ 02-04-02: Constitutional AI é a base do Claude
→ 02-04-04: Llama 3 Instruct usa combinação de SFT + RLHF + DPO

Fontes

Rafailov et al. (2023) — Direct Preference Optimization: Your Language Model is Secretly a Reward Model
Bai et al. (2022) — Constitutional AI: Harmlessness from AI Feedback — Anthropic
Lee et al. (2023) — RLAIF: Scaling Reinforcement Learning from Human Feedback with AI Feedback