02-02-01 — Attention Is All You Need: o paper que mudou tudo
TL;DR
Em 2017, 8 pesquisadores do Google publicaram um paper que aboliu RNNs e LSTMs com uma ideia simples: processar toda a sequência em paralelo usando mecanismos de attention. Essa arquitetura — o Transformer — é a base de 100% dos LLMs modernos. Entender o paper é entender por que IA generativa explodiu agora, e não em 2010.
O problema que existia antes: RNNs e suas limitações
Antes do Transformer, o estado da arte em NLP eram Redes Neurais Recorrentes (RNNs) e suas variantes LSTM/GRU. O problema fundamental: processamento sequencial.
Para processar "O gato sentou no tapete porque ele estava cansado", uma RNN precisa processar token por token. Para saber a que "ele" se refere, o modelo precisa carregar informação desde o início da sequência — e o gradiente se dispersa ao longo de centenas de passos (vanishing gradient).
Consequências práticas:
- Lento para treinar: Não dá para paralelizar (cada step depende do anterior)
- Memória de curto alcance: Referências distantes se perdem
- Não escala: Dobrar o hardware não dobra a velocidade
A impossibilidade de paralelizar era o gargalo que impedia escala. GPUs são boas em operações matriciais paralelas — não em loops sequenciais. O Transformer transformou NLP num problema de álgebra linear, liberando todo o poder do hardware moderno.
A ideia central: Attention
O mecanismo de attention permite que qualquer token da sequência "olhe" para qualquer outro token diretamente, em um único passo — independente da distância. Para a frase "O gato sentou no tapete porque ele estava cansado", o modelo calcula explicitamente o quanto "ele" deve se relacionar com "gato" vs "tapete" vs todos os outros tokens.
Essa operação é completamente paralelizável: todos os tokens calculam suas relações com todos os outros simultaneamente. Resultado: o que levava horas em RNNs passou a levar minutos.
Arquitetura do Transformer original
O paper original usava arquitetura encoder-decoder para tradução (inglês → alemão). O encoder processa a entrada inteira; o decoder gera a saída token a token, podendo "prestar atenção" em toda a entrada a qualquer momento.
Os blocos fundamentais
1. Embeddings + Positional Encoding
Tokens são convertidos em vetores de alta dimensão (embedding). Como o Transformer não tem memória sequencial, a posição de cada token é injetada explicitamente via positional encoding — funções seno/coseno que codificam posição como padrões numéricos.
2. Multi-Head Self-Attention
O coração do Transformer. Cada token gera três vetores — Query (Q), Key (K), Value (V) — e calcula sua relação com todos os outros tokens. "Multi-head" significa fazer isso múltiplas vezes em paralelo, capturando diferentes tipos de relações.
3. Feed-Forward Network
Após attention, cada token passa por uma rede neural simples (dois layers lineares com ReLU). Isso é onde a maioria dos "fatos" está armazenada nos LLMs modernos.
4. Add & Norm (Residual Connection)
Conexões residuais (soma da entrada com saída de cada bloco) + layer normalization. Crítico para treinar redes profundas sem vanishing gradient.
O impacto: por que 2017 foi o ano zero
Os autores projetaram o Transformer para tradução. Não previram que a arquitetura decoder-only (sem encoder) escalaria para LLMs de uso geral. GPT-1, lançado 1 ano depois, foi a primeira demonstração de que um Transformer decoder treinado em texto geral aprendia representações poderosas. O resto é história.
Por que o Transformer domina até hoje
- Paralelismo total: Aproveita 100% do hardware (GPUs/TPUs)
- Long-range dependencies: Qualquer token acessa qualquer outro em O(1)
- Escala bem: Mais layers, mais heads, mais dimensões → melhor performance
- Flexível: Funciona para texto, imagem, áudio, código, proteínas (AlphaFold2)
Self-attention tem complexidade O(n²) no tamanho da sequência. Para uma sequência de 100k tokens, isso é 10 bilhões de operações. É por isso que context windows grandes (Gemini 1M tokens, Claude 200k) são tecnicamente desafiadores e caros. Variantes como Flash Attention e Sparse Attention tentam mitigar isso.
Como isso se conecta
Fontes
- Vaswani et al. (2017) — Attention Is All You Need — o paper original, leitura obrigatória
- Alammar, J. (2018) — The Illustrated Transformer — visualização imprescindível
- Hochreiter & Schmidhuber (1997) — Long Short-Term Memory — o que o Transformer substituiu