04-01-01 — Por que RAG existe
TL;DR
LLMs são treinados até uma data e não sabem o que aconteceu depois. Têm contexto finito e inventam coisas quando não sabem a resposta. RAG resolve isso dando ao modelo acesso a documentos frescos na hora da query — sem retreinar. É a técnica mais prática para conectar IA corporativa a dados reais.
O problema que RAG resolve
Um LLM como GPT-4 ou Claude é treinado num snapshot do mundo até uma determinada data (o famoso knowledge cutoff). Depois disso, o modelo não aprende mais nada — a menos que seja retreinado, o que custa milhões de dólares e semanas de computação.
Isso cria três problemas críticos para uso corporativo:
1. Knowledge Cutoff — o modelo vive no passado
Se o treinamento parou em outubro de 2023, o modelo não sabe nada sobre regulamentações publicadas em 2024, sobre o último relatório trimestral da sua empresa, nem sobre o contrato que foi assinado ontem. Perguntar sobre esses assuntos gera respostas inventadas ou recusas.
O modelo não sabe que não sabe. Ele responde com a mesma confiança quando está certo e quando está inventando. Isso é o que torna o knowledge cutoff perigoso em contextos jurídicos, financeiros e de compliance.
2. Contexto finito — você não pode jogar tudo dentro
Modelos modernos têm janelas de contexto grandes (128k, 200k tokens), mas ainda finitas. Uma empresa com 500 contratos de 50 páginas cada tem ~25.000 páginas. Isso não cabe em nenhum contexto. E mesmo que coubesse, seria absurdamente caro processar tudo a cada query.
3. Alucinação — o modelo inventa com confiança
Quando o modelo não tem a informação, ele tende a gerar texto plausível em vez de admitir ignorância. Esse fenômeno — chamado de hallucination — é particularmente grave quando o usuário não tem como verificar a resposta.
RAG não elimina alucinação completamente, mas reduz drasticamente porque o modelo recebe os trechos relevantes como contexto explícito. É mais difícil alucinar quando a resposta está literalmente na frente do modelo.
A analogia do estudante
Imagine dois estudantes fazendo uma prova:
- Estudante sem RAG: decorou tudo que estudou antes da prova. Se a pergunta está fora do que ele memorizou, ele inventa ou deixa em branco. Não pode atualizar o conhecimento durante a prova.
- Estudante com RAG: prova com consulta. Ele tem os livros na frente, busca os trechos relevantes para cada pergunta e formula a resposta baseado no que está escrito. Mais lento para buscar, mas mais preciso e sempre atualizado.
RAG transforma seu LLM num estudante com prova aberta. O modelo continua sendo responsável por raciocinar sobre o conteúdo — mas o conteúdo em si vem dos seus documentos, não da memória estática de treinamento.
Por que não fine-tuning?
A pergunta natural é: por que não simplesmente retreinar ou fazer fine-tuning do modelo com os dados da empresa?
| Aspecto | Fine-tuning | RAG |
|---|---|---|
| Custo inicial | Alto (GPU, tempo, dados rotulados) | Baixo (indexação de documentos) |
| Atualização de dados | Requer novo treino | Adiciona documento ao índice |
| Citação de fontes | Impossível (memória implícita) | Nativa (chunk recuperado) |
| Controle de acesso | Difícil | Filtros no retrieval |
| Auditoria | Caixa preta | Rastreável (qual doc gerou qual resposta) |
Fine-tuning é útil para ensinar comportamento e estilo (ex: responder sempre em formato JSON, seguir o tom da empresa). RAG é a escolha certa para injetar conhecimento atualizado e específico.
Muitos sistemas de produção combinam os dois: fine-tuning para comportamento base + RAG para conhecimento dinâmico. Um não exclui o outro.
Quando RAG é a resposta certa
- Base de conhecimento corporativa (wikis, manuais, contratos)
- Dados que mudam frequentemente (preços, regulamentações, notícias)
- Necessidade de citar fontes e permitir auditoria
- Controle de acesso granular por documento
- Múltiplos domínios de conhecimento num só sistema
O Azure OpenAI Service tem uma feature chamada "On Your Data" que implementa RAG com um clique apontando para Azure AI Search, SharePoint ou Blob Storage. É o ponto de entrada mais rápido para RAG no ecossistema Microsoft — veremos em detalhes no tópico 04-06-01.
Como isso se conecta
- Próximo: 04-01-02 — Arquitetura RAG clássica — como o pipeline funciona na prática
- 04-05-01 — Métricas de RAG — como medir se o RAG está funcionando
- 04-06-01 — Azure AI Search + OpenAI: On Your Data — implementação Microsoft pronta para produção
Fontes
- Lewis, P. et al. (2020). Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks. NeurIPS. arxiv.org/abs/2005.11401
- Microsoft. Retrieval Augmented Generation (RAG) in Azure AI Search. learn.microsoft.com
- Gao, Y. et al. (2023). Retrieval-Augmented Generation for Large Language Models: A Survey. arxiv.org/abs/2312.10997
- Anthropic. Reducing hallucinations with RAG. anthropic.com/research