04-01-01 — Por que RAG existe

⏱ 10 minFontes validadas em: 2026-04-29

TL;DR

LLMs são treinados até uma data e não sabem o que aconteceu depois. Têm contexto finito e inventam coisas quando não sabem a resposta. RAG resolve isso dando ao modelo acesso a documentos frescos na hora da query — sem retreinar. É a técnica mais prática para conectar IA corporativa a dados reais.

O problema que RAG resolve

Um LLM como GPT-4 ou Claude é treinado num snapshot do mundo até uma determinada data (o famoso knowledge cutoff). Depois disso, o modelo não aprende mais nada — a menos que seja retreinado, o que custa milhões de dólares e semanas de computação.

Isso cria três problemas críticos para uso corporativo:

1. Knowledge Cutoff — o modelo vive no passado

Se o treinamento parou em outubro de 2023, o modelo não sabe nada sobre regulamentações publicadas em 2024, sobre o último relatório trimestral da sua empresa, nem sobre o contrato que foi assinado ontem. Perguntar sobre esses assuntos gera respostas inventadas ou recusas.

⚠️ Atenção

O modelo não sabe que não sabe. Ele responde com a mesma confiança quando está certo e quando está inventando. Isso é o que torna o knowledge cutoff perigoso em contextos jurídicos, financeiros e de compliance.

2. Contexto finito — você não pode jogar tudo dentro

Modelos modernos têm janelas de contexto grandes (128k, 200k tokens), mas ainda finitas. Uma empresa com 500 contratos de 50 páginas cada tem ~25.000 páginas. Isso não cabe em nenhum contexto. E mesmo que coubesse, seria absurdamente caro processar tudo a cada query.

3. Alucinação — o modelo inventa com confiança

Quando o modelo não tem a informação, ele tende a gerar texto plausível em vez de admitir ignorância. Esse fenômeno — chamado de hallucination — é particularmente grave quando o usuário não tem como verificar a resposta.

💡 Insight

RAG não elimina alucinação completamente, mas reduz drasticamente porque o modelo recebe os trechos relevantes como contexto explícito. É mais difícil alucinar quando a resposta está literalmente na frente do modelo.

A analogia do estudante

Imagine dois estudantes fazendo uma prova:

Estudante sem RAG: decorou tudo que estudou antes da prova. Se a pergunta está fora do que ele memorizou, ele inventa ou deixa em branco. Não pode atualizar o conhecimento durante a prova.
Estudante com RAG: prova com consulta. Ele tem os livros na frente, busca os trechos relevantes para cada pergunta e formula a resposta baseado no que está escrito. Mais lento para buscar, mas mais preciso e sempre atualizado.

RAG transforma seu LLM num estudante com prova aberta. O modelo continua sendo responsável por raciocinar sobre o conteúdo — mas o conteúdo em si vem dos seus documentos, não da memória estática de treinamento.

Por que não fine-tuning?

A pergunta natural é: por que não simplesmente retreinar ou fazer fine-tuning do modelo com os dados da empresa?

Aspecto	Fine-tuning	RAG
Custo inicial	Alto (GPU, tempo, dados rotulados)	Baixo (indexação de documentos)
Atualização de dados	Requer novo treino	Adiciona documento ao índice
Citação de fontes	Impossível (memória implícita)	Nativa (chunk recuperado)
Controle de acesso	Difícil	Filtros no retrieval
Auditoria	Caixa preta	Rastreável (qual doc gerou qual resposta)

Fine-tuning é útil para ensinar comportamento e estilo (ex: responder sempre em formato JSON, seguir o tom da empresa). RAG é a escolha certa para injetar conhecimento atualizado e específico.

🔗 Conexão

Muitos sistemas de produção combinam os dois: fine-tuning para comportamento base + RAG para conhecimento dinâmico. Um não exclui o outro.

Quando RAG é a resposta certa

Base de conhecimento corporativa (wikis, manuais, contratos)
Dados que mudam frequentemente (preços, regulamentações, notícias)
Necessidade de citar fontes e permitir auditoria
Controle de acesso granular por documento
Múltiplos domínios de conhecimento num só sistema

🏢 Microsoft

O Azure OpenAI Service tem uma feature chamada "On Your Data" que implementa RAG com um clique apontando para Azure AI Search, SharePoint ou Blob Storage. É o ponto de entrada mais rápido para RAG no ecossistema Microsoft — veremos em detalhes no tópico 04-06-01.

Como isso se conecta

Próximo: 04-01-02 — Arquitetura RAG clássica — como o pipeline funciona na prática
04-05-01 — Métricas de RAG — como medir se o RAG está funcionando
04-06-01 — Azure AI Search + OpenAI: On Your Data — implementação Microsoft pronta para produção

Fontes

Lewis, P. et al. (2020). Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks. NeurIPS. arxiv.org/abs/2005.11401
Microsoft. Retrieval Augmented Generation (RAG) in Azure AI Search. learn.microsoft.com
Gao, Y. et al. (2023). Retrieval-Augmented Generation for Large Language Models: A Survey. arxiv.org/abs/2312.10997
Anthropic. Reducing hallucinations with RAG. anthropic.com/research