02-02-03 — Encoder, decoder e encoder-decoder: quem usa o quê

⏱ 12 min Fontes validadas em: 2026-04-29

TL;DR

Há três famílias de Transformers: encoder-only (BERT — lê tudo, ótimo para classificação), decoder-only (GPT, Claude, Llama — gera texto), e encoder-decoder (T5, BART — transforma texto em texto). Decoder-only dominou o mercado de LLMs porque é simples de escalar e generalizou melhor do que qualquer um esperava.

As três arquiteturas em visão geral

graph LR subgraph EO[Encoder-Only] E1[Token 1] --> ENC1[Encoder] E2[Token 2] --> ENC1 E3[Token N] --> ENC1 ENC1 --> REP[Representação bidirecional] REP --> TASK[Classificação / NER / Embeddings] end subgraph DO[Decoder-Only] D1[Prompt] --> DEC[Decoder\nMasked Attention] DEC --> T1[token 1] T1 --> T2[token 2] T2 --> TN[token N...] end subgraph ED[Encoder-Decoder] ED1[Texto de entrada] --> EENC[Encoder] EENC --> EDEC[Decoder com Cross-Attention] EDEC --> EOUT[Texto de saída] end style EO fill:#1e3a5f,stroke:#3b82f6 style DO fill:#1e3a2f,stroke:#22c55e style ED fill:#3a1e2f,stroke:#a855f7

Encoder-only: BERT e o poder da bidirecionalidade

O encoder processa todos os tokens da sequência simultaneamente, e cada token pode "ver" todos os outros — tanto à esquerda quanto à direita. Isso cria representações bidirecionais ricas.

O BERT (2018) foi o marco: pré-treinado com dois objetivos — Masked Language Modeling (prever tokens mascarados) e Next Sentence Prediction. Resultado: representações que capturam contexto profundo.

Ideal para:

  • Classificação de texto (sentiment, toxicidade, categoria)
  • Named Entity Recognition (NER)
  • Question answering extrativo
  • Geração de embeddings semânticos

Não serve para: Geração livre de texto. O encoder não tem capacidade autoregressiva.

Decoder-only: a família GPT

O decoder usa masked self-attention (causal attention) — cada token só pode ver tokens anteriores. Isso é necessário durante o treino (não pode "trapacear" vendo o futuro) e define o comportamento na inferência: geração token a token da esquerda para a direita.

Ideal para:

  • Geração de texto livre
  • Completar prompts (chat, código, criação)
  • Few-shot learning
  • Instruções em linguagem natural

Modelos notáveis: GPT-2, GPT-3, GPT-4, Claude, Llama, Mistral, Gemini (maioria), Phi

Encoder-decoder: o Transformer original

A arquitetura do paper original de 2017. O encoder processa a entrada completa bidirecionalmente; o decoder gera a saída usando cross-attention para "consultar" o encoder a cada passo.

Ideal para:

  • Tradução automática
  • Sumarização
  • Tarefas de transformação texto-para-texto (T5: "translate English to French: ...")

Modelos notáveis: T5, BART, mT5, NLLB (Meta), MarianMT

Tabela comparativa

Aspecto Encoder-only Decoder-only Encoder-decoder
Attention direction Bidirecional Unidirecional (causal) Encoder: bidirecional
Decoder: causal + cross
Objetivo de treino MLM, NSP Next token prediction Seq2seq
Gera texto livre? Não Sim Sim (condicional)
Exemplos BERT, RoBERTa, DeBERTa GPT-4, Claude, Llama, Phi T5, BART, NLLB
Melhor para Classificação, NER, embeddings Chat, código, geração geral Tradução, sumarização

Por que decoder-only dominou

A pergunta razoável: por que a arquitetura mais "limitada" (sem bidirecionalidade) ganhou?

  1. Treinamento mais simples: Um único objetivo (próximo token) escala naturalmente para qualquer quantidade de dados e parâmetros
  2. Emergência surpreendente: Com escala suficiente, decoder-only models aprendem a entender texto tão bem quanto encoders — sem precisar de bidirecionalidade explícita
  3. Interface unificada: Um único modelo via "prompt" faz o que antes exigia modelos especializados diferentes
  4. Instruction tuning: RLHF e instruction tuning funcionam naturalmente com geração autoregressiva
💡 Insight para decisões de arquitetura

Para sua empresa: se você precisa de embeddings para busca semântica ou classificação de documentos, modelos encoder-only (ou encoder de modelos híbridos) ainda são eficientes e baratos. Para geração, chat e assistentes, decoder-only é o padrão consolidado. Não use T5/BART para casos novos — a não ser que você já tenha pipeline estabelecido.

🔗 Conexão com embeddings

Para RAG (Retrieval-Augmented Generation) — um dos padrões mais comuns em produtos de IA — você normalmente usa um modelo de embedding separado (baseado em encoder) para indexar documentos, e um LLM decoder-only para gerar respostas. Os dois tipos coexistem no mesmo sistema.

Como isso se conecta

  • 02-03-01: Como o pré-treinamento difere para cada arquitetura
  • 02-04-01: GPT é decoder-only — por que essa escolha escalou
  • 02-04-04: Llama e Mistral são decoder-only com melhorias sobre GPT original

Fontes

  1. Devlin et al. (2018) — BERT: Pre-training of Deep Bidirectional Transformers
  2. Raffel et al. (2019) — Exploring the Limits of Transfer Learning with T5
  3. Radford et al. (2018) — GPT-1: Improving Language Understanding by Generative Pre-Training