02-02-03 — Encoder, decoder e encoder-decoder: quem usa o quê
TL;DR
Há três famílias de Transformers: encoder-only (BERT — lê tudo, ótimo para classificação), decoder-only (GPT, Claude, Llama — gera texto), e encoder-decoder (T5, BART — transforma texto em texto). Decoder-only dominou o mercado de LLMs porque é simples de escalar e generalizou melhor do que qualquer um esperava.
As três arquiteturas em visão geral
Encoder-only: BERT e o poder da bidirecionalidade
O encoder processa todos os tokens da sequência simultaneamente, e cada token pode "ver" todos os outros — tanto à esquerda quanto à direita. Isso cria representações bidirecionais ricas.
O BERT (2018) foi o marco: pré-treinado com dois objetivos — Masked Language Modeling (prever tokens mascarados) e Next Sentence Prediction. Resultado: representações que capturam contexto profundo.
Ideal para:
- Classificação de texto (sentiment, toxicidade, categoria)
- Named Entity Recognition (NER)
- Question answering extrativo
- Geração de embeddings semânticos
Não serve para: Geração livre de texto. O encoder não tem capacidade autoregressiva.
Decoder-only: a família GPT
O decoder usa masked self-attention (causal attention) — cada token só pode ver tokens anteriores. Isso é necessário durante o treino (não pode "trapacear" vendo o futuro) e define o comportamento na inferência: geração token a token da esquerda para a direita.
Ideal para:
- Geração de texto livre
- Completar prompts (chat, código, criação)
- Few-shot learning
- Instruções em linguagem natural
Modelos notáveis: GPT-2, GPT-3, GPT-4, Claude, Llama, Mistral, Gemini (maioria), Phi
Encoder-decoder: o Transformer original
A arquitetura do paper original de 2017. O encoder processa a entrada completa bidirecionalmente; o decoder gera a saída usando cross-attention para "consultar" o encoder a cada passo.
Ideal para:
- Tradução automática
- Sumarização
- Tarefas de transformação texto-para-texto (T5: "translate English to French: ...")
Modelos notáveis: T5, BART, mT5, NLLB (Meta), MarianMT
Tabela comparativa
| Aspecto | Encoder-only | Decoder-only | Encoder-decoder |
|---|---|---|---|
| Attention direction | Bidirecional | Unidirecional (causal) | Encoder: bidirecional Decoder: causal + cross |
| Objetivo de treino | MLM, NSP | Next token prediction | Seq2seq |
| Gera texto livre? | Não | Sim | Sim (condicional) |
| Exemplos | BERT, RoBERTa, DeBERTa | GPT-4, Claude, Llama, Phi | T5, BART, NLLB |
| Melhor para | Classificação, NER, embeddings | Chat, código, geração geral | Tradução, sumarização |
Por que decoder-only dominou
A pergunta razoável: por que a arquitetura mais "limitada" (sem bidirecionalidade) ganhou?
- Treinamento mais simples: Um único objetivo (próximo token) escala naturalmente para qualquer quantidade de dados e parâmetros
- Emergência surpreendente: Com escala suficiente, decoder-only models aprendem a entender texto tão bem quanto encoders — sem precisar de bidirecionalidade explícita
- Interface unificada: Um único modelo via "prompt" faz o que antes exigia modelos especializados diferentes
- Instruction tuning: RLHF e instruction tuning funcionam naturalmente com geração autoregressiva
Para sua empresa: se você precisa de embeddings para busca semântica ou classificação de documentos, modelos encoder-only (ou encoder de modelos híbridos) ainda são eficientes e baratos. Para geração, chat e assistentes, decoder-only é o padrão consolidado. Não use T5/BART para casos novos — a não ser que você já tenha pipeline estabelecido.
Para RAG (Retrieval-Augmented Generation) — um dos padrões mais comuns em produtos de IA — você normalmente usa um modelo de embedding separado (baseado em encoder) para indexar documentos, e um LLM decoder-only para gerar respostas. Os dois tipos coexistem no mesmo sistema.
Como isso se conecta
Fontes
- Devlin et al. (2018) — BERT: Pre-training of Deep Bidirectional Transformers
- Raffel et al. (2019) — Exploring the Limits of Transfer Learning with T5
- Radford et al. (2018) — GPT-1: Improving Language Understanding by Generative Pre-Training