02-01-01 — LLM como autocomplete sofisticado: intuição e analogias
TL;DR
Um LLM é, fundamentalmente, uma função que recebe tokens e retorna uma distribuição de probabilidade sobre o próximo token. Treinado em trilhões de palavras da internet, esse mecanismo simples gera comportamentos emergentes surpreendentes — como raciocínio, tradução e código — que modelos menores não exibem. "Papagaio estocástico" subestima o fenômeno.
O que realmente acontece quando você digita um prompt
Todo LLM opera com uma premissa única: dado um contexto de tokens, qual é o token mais provável a seguir? Não há "compreensão" no sentido humano — há um mapeamento matemático extremamente sofisticado entre sequências de tokens e distribuições de probabilidade.
Formalmente: dado um vocabulário V e uma sequência de tokens t₁, t₂, ..., tₙ, o modelo calcula:
P(tₙ₊₁ | t₁, t₂, ..., tₙ)
Esse processo se repete token a token até atingir um critério de parada. O que parece "pensamento" é dezenas de bilhões de multiplicações de matrizes acontecendo em paralelo em GPUs.
Autocomplete do celular vs. LLM: a analogia correta
O autocomplete do seu iPhone foi treinado em frases de SMS e e-mails — talvez alguns bilhões de tokens. Ele sugere "tudo bem?" depois de "como você está" porque viu essa sequência muitas vezes.
Um LLM foi treinado em trilhões de tokens: toda a Wikipedia, código do GitHub, papers científicos, livros, fóruns, notícias. Quando ele sugere o próximo token em "Para ordenar uma lista em Python, use:", ele "lembrou" de milhões de exemplos de código onde essa instrução aparece — e a probabilidade mais alta é sorted( ou list.sort(.
A diferença entre autocomplete e LLM não é qualitativa — é de escala. A mesma arquitetura treinada com 1.000x mais dados e compute produz capacidades categoricamente diferentes. Isso é o que torna os LLMs contraintuitivos.
Tokens: a unidade de trabalho
LLMs não operam em palavras — operam em tokens, pedaços de texto que tipicamente correspondem a 3-4 caracteres em inglês. "programming" vira ["program", "ming"]. Emojis e caracteres especiais podem ser tokens únicos ou fragmentados.
Implicações práticas:
- Português usa ~30% mais tokens que inglês para o mesmo conteúdo (morfologia rica)
- Código tende a usar mais tokens que prosa por causa de símbolos
- O limite de "context window" é em tokens, não palavras
Por que "papagaio estocástico" é uma simplificação injusta
O termo, cunhado por Bender et al. (2021), sugere que LLMs apenas reproduzem padrões estatísticos sem entendimento real. A crítica tem mérito epistemológico — mas subestima o fenômeno empiricamente.
Considere: se você treinar um modelo para prever o próximo token em textos de matemática, para acertar consistentemente, o modelo precisa aprender relações matemáticas. Não porque foi programado para isso — mas porque é a estrutura mais compacta para explicar os dados.
O argumento mais forte contra "papagaio estocástico": LLMs demonstram composicionalidade — combinam conceitos que nunca viram juntos. Se um modelo viu "Napoleão foi exilado na Elba" e "A Elba fica no Mediterrâneo", ele pode inferir "Napoleão foi exilado no Mediterrâneo" sem ter visto essa frase. Isso não é repetição.
Emergent abilities: capacidades que aparecem com escala
Um dos fenômenos mais surpreendentes da IA moderna: certas capacidades simplesmente não existem em modelos pequenos e surgem abruptamente em modelos maiores, sem que tenham sido explicitamente treinadas.
Exemplos documentados de emergent abilities:
- Few-shot learning: Aprender uma tarefa a partir de 3-5 exemplos no prompt (GPT-3, ~175B parâmetros)
- Chain-of-thought: Raciocinar passo a passo espontaneamente (surge em ~100B parâmetros)
- Aritmética multi-step: Resolver "237 × 48" corretamente sem treinamento específico
- Tradução zero-shot: Traduzir para idiomas raros sem exemplos
Emergent abilities são controversas na literatura. Alguns pesquisadores (Schaeffer et al., 2023) argumentam que são um artefato de métricas não-lineares — com métricas contínuas, o crescimento seria gradual, não abrupto. O debate está aberto. O que é consenso: escala importa de forma não-linear.
A intuição que importa para quem constrói sistemas
Para um CEO de empresa de tecnologia, a intuição operacional é esta:
- LLMs são generalistas por natureza — treinados em tudo, bons em muito
- São probabilísticos — a mesma entrada pode gerar saídas diferentes
- São stateless por padrão — não lembram de conversas anteriores sem mecanismo externo
- São limitados pelo contexto — só "veem" o que está na janela atual
- Não sabem o que não sabem — confabulação (alucinação) é uma propriedade fundamental, não um bug
Como isso se conecta
Fontes
- Vaswani et al. (2017) — Attention Is All You Need — paper original do Transformer
- Wei et al. (2022) — Emergent Abilities of Large Language Models — TMLR
- Bender et al. (2021) — On the Dangers of Stochastic Parrots — FAccT
- OpenAI — Tokenizer interativo — visualize como tokens funcionam