02-02-01 — Attention Is All You Need: o paper que mudou tudo

⏱ 15 min Fontes validadas em: 2026-04-29

TL;DR

Em 2017, 8 pesquisadores do Google publicaram um paper que aboliu RNNs e LSTMs com uma ideia simples: processar toda a sequência em paralelo usando mecanismos de attention. Essa arquitetura — o Transformer — é a base de 100% dos LLMs modernos. Entender o paper é entender por que IA generativa explodiu agora, e não em 2010.

O problema que existia antes: RNNs e suas limitações

Antes do Transformer, o estado da arte em NLP eram Redes Neurais Recorrentes (RNNs) e suas variantes LSTM/GRU. O problema fundamental: processamento sequencial.

Para processar "O gato sentou no tapete porque ele estava cansado", uma RNN precisa processar token por token. Para saber a que "ele" se refere, o modelo precisa carregar informação desde o início da sequência — e o gradiente se dispersa ao longo de centenas de passos (vanishing gradient).

Consequências práticas:

  • Lento para treinar: Não dá para paralelizar (cada step depende do anterior)
  • Memória de curto alcance: Referências distantes se perdem
  • Não escala: Dobrar o hardware não dobra a velocidade
💡 Por que isso importa para você

A impossibilidade de paralelizar era o gargalo que impedia escala. GPUs são boas em operações matriciais paralelas — não em loops sequenciais. O Transformer transformou NLP num problema de álgebra linear, liberando todo o poder do hardware moderno.

A ideia central: Attention

O mecanismo de attention permite que qualquer token da sequência "olhe" para qualquer outro token diretamente, em um único passo — independente da distância. Para a frase "O gato sentou no tapete porque ele estava cansado", o modelo calcula explicitamente o quanto "ele" deve se relacionar com "gato" vs "tapete" vs todos os outros tokens.

Essa operação é completamente paralelizável: todos os tokens calculam suas relações com todos os outros simultaneamente. Resultado: o que levava horas em RNNs passou a levar minutos.

Arquitetura do Transformer original

graph TB subgraph Encoder EI[Input Embedding + Positional Encoding] --> EA[Multi-Head Self-Attention] EA --> EN[Add & Norm] EN --> EFF[Feed-Forward Network] EFF --> EN2[Add & Norm] end subgraph Decoder DI[Output Embedding + Positional Encoding] --> DA[Masked Multi-Head Self-Attention] DA --> DN[Add & Norm] DN --> CA[Cross-Attention com Encoder] CA --> DN2[Add & Norm] DN2 --> DFF[Feed-Forward Network] DFF --> DN3[Add & Norm] DN3 --> LN[Linear] LN --> SM[Softmax → próximo token] end EN2 --> CA style Encoder fill:#1e3a5f,stroke:#3b82f6 style Decoder fill:#1e3a2f,stroke:#22c55e

O paper original usava arquitetura encoder-decoder para tradução (inglês → alemão). O encoder processa a entrada inteira; o decoder gera a saída token a token, podendo "prestar atenção" em toda a entrada a qualquer momento.

Os blocos fundamentais

1. Embeddings + Positional Encoding

Tokens são convertidos em vetores de alta dimensão (embedding). Como o Transformer não tem memória sequencial, a posição de cada token é injetada explicitamente via positional encoding — funções seno/coseno que codificam posição como padrões numéricos.

2. Multi-Head Self-Attention

O coração do Transformer. Cada token gera três vetores — Query (Q), Key (K), Value (V) — e calcula sua relação com todos os outros tokens. "Multi-head" significa fazer isso múltiplas vezes em paralelo, capturando diferentes tipos de relações.

3. Feed-Forward Network

Após attention, cada token passa por uma rede neural simples (dois layers lineares com ReLU). Isso é onde a maioria dos "fatos" está armazenada nos LLMs modernos.

4. Add & Norm (Residual Connection)

Conexões residuais (soma da entrada com saída de cada bloco) + layer normalization. Crítico para treinar redes profundas sem vanishing gradient.

O impacto: por que 2017 foi o ano zero

timeline title Do Transformer para os LLMs 2017 : Attention Is All You Need (Google) 2018 : BERT (Google) — encoder-only\nGPT-1 (OpenAI) — decoder-only 2019 : GPT-2 (OpenAI) — 1.5B params 2020 : GPT-3 (OpenAI) — 175B params 2022 : ChatGPT — RLHF sobre GPT-3.5 2023 : GPT-4, Llama, Claude 2 2024 : Multimodal transformers dominam tudo
🔬 O que o paper não sabia

Os autores projetaram o Transformer para tradução. Não previram que a arquitetura decoder-only (sem encoder) escalaria para LLMs de uso geral. GPT-1, lançado 1 ano depois, foi a primeira demonstração de que um Transformer decoder treinado em texto geral aprendia representações poderosas. O resto é história.

Por que o Transformer domina até hoje

  • Paralelismo total: Aproveita 100% do hardware (GPUs/TPUs)
  • Long-range dependencies: Qualquer token acessa qualquer outro em O(1)
  • Escala bem: Mais layers, mais heads, mais dimensões → melhor performance
  • Flexível: Funciona para texto, imagem, áudio, código, proteínas (AlphaFold2)
⚠️ O custo da attention

Self-attention tem complexidade O(n²) no tamanho da sequência. Para uma sequência de 100k tokens, isso é 10 bilhões de operações. É por isso que context windows grandes (Gemini 1M tokens, Claude 200k) são tecnicamente desafiadores e caros. Variantes como Flash Attention e Sparse Attention tentam mitigar isso.

Como isso se conecta

  • 02-02-02: Self-attention em detalhe: Q, K, V e multi-head
  • 02-02-03: Encoder vs decoder: BERT vs GPT e por que decoder-only dominou
  • 02-03-01: Como esse Transformer é treinado em dados massivos

Fontes

  1. Vaswani et al. (2017) — Attention Is All You Need — o paper original, leitura obrigatória
  2. Alammar, J. (2018) — The Illustrated Transformer — visualização imprescindível
  3. Hochreiter & Schmidhuber (1997) — Long Short-Term Memory — o que o Transformer substituiu