00-05-01 — Glossário Visual: 20 Termos Essenciais

⏱ 8 min Fontes validadas em: 2026-04-29

TL;DR

Referência rápida dos 20 termos que aparecem em todo artigo, vídeo, e conversa sobre IA. Use como consulta — volte aqui quando encontrar um termo desconhecido nos módulos seguintes.

Os 20 Termos que Você Vai Encontrar em Todo Lugar

Este glossário cobre o vocabulário mínimo necessário para navegar a literatura, reuniões, e documentação técnica de IA sem ficar perdido. Cada definição tem 2-3 linhas — o suficiente para entender o uso, não para dominar o conceito. Para profundidade, siga para os módulos correspondentes.

📌
LLM — Large Language Model
Modelo de IA treinado em grandes volumes de texto para compreender e gerar linguagem natural. GPT-4, Claude, Gemini, e Phi são exemplos. "Grande" refere-se ao número de parâmetros (bilhões a trilhões) e à escala dos dados de treinamento.
📌
Token
Unidade mínima de texto que um modelo processa. Não é necessariamente uma palavra — palavras comuns são 1 token, palavras raras podem ser 2-4. Custo de APIs de LLM é medido em tokens. 1000 tokens ≈ 750 palavras em inglês, ~600 em português.
📌
Context Window (Janela de Contexto)
Limite máximo de tokens que um modelo pode processar em uma chamada (entrada + saída). Determina o quanto de texto o modelo pode "ver" de uma vez. GPT-4o: 128K tokens. Claude 3: 200K. Informação fora da janela é invisível para o modelo.
📌
Prompt
O texto de entrada enviado ao modelo — inclui instruções, contexto, exemplos, e a pergunta ou tarefa. A qualidade do prompt é o principal determinante da qualidade da resposta. Prompt engineering é a disciplina de otimizar prompts para resultados melhores.
📌
System Prompt
Instrução inicial que define o comportamento, personalidade, e restrições do modelo para uma sessão ou aplicação inteira. É separado das mensagens do usuário e geralmente não visível para o usuário final. Base da customização sem fine-tuning.
📌
Embedding
Representação vetorial de texto (ou imagem, áudio) onde proximidade no espaço matemático reflete similaridade semântica. "Gato" e "felino" têm embeddings próximos; "gato" e "balancete" têm embeddings distantes. Base do RAG e da busca semântica.
📌
RAG — Retrieval Augmented Generation
Técnica que combina busca em base de conhecimento com geração de texto. O modelo busca documentos relevantes e os inclui no contexto antes de gerar a resposta. Resolve o problema de modelos não conhecerem informações privadas ou recentes.
📌
Fine-tuning
Processo de continuar o treinamento de um modelo pré-treinado com dados específicos para ajustar comportamento ou especializar em um domínio. Muda os pesos do modelo. Mais caro que RAG, justificado para comportamentos consistentes e domínios muito especializados.
📌
Temperatura (Temperature)
Parâmetro que controla aleatoriedade na geração de texto. 0 = sempre escolhe o token mais provável (determinístico). 1 = usa a distribuição original do modelo. 2+ = mais aleatório e criativo, potencialmente incoerente. Padrão típico: 0.7-1.0.
📌
Alucinação (Hallucination)
Quando um modelo gera informação factualmente incorreta com aparente confiança. Acontece porque o modelo sempre gera o output mais plausível — mesmo sem ter a informação correta. Mitigado com RAG, grounding explícito, e verificação programática.
📌
Transformer
Arquitetura de rede neural que usa mecanismo de atenção para processar sequências. Publicada em 2017 ("Attention is All You Need"), é a base de todos os LLMs modernos — GPT, Claude, Gemini, Phi, e praticamente tudo relevante em NLP hoje.
📌
Atenção (Attention)
Mecanismo que permite ao modelo pesar a importância de diferentes partes do input ao processar cada token. "Banco" em "o banco faliu" presta atenção em "faliu"; em "sentei no banco", presta atenção em "sentei". É o que dá contexto ao significado.
📌
Parâmetros / Pesos
Os números ajustáveis que definem o comportamento de um modelo. GPT-4 tem estimados ~1.8T parâmetros. Maiores parâmetros = maior capacidade, mas também mais custo de inferência. Mais parâmetros não garante melhor desempenho — qualidade dos dados de treinamento também importa.
📌
Inferência
O processo de usar um modelo treinado para gerar predições ou respostas. É o que acontece quando você envia uma mensagem ao ChatGPT ou faz um request à API. Os pesos não mudam durante inferência — o modelo aplica o que aprendeu durante treinamento.
📌
Few-shot / Zero-shot
Formas de usar um modelo. Zero-shot: pede uma tarefa sem exemplos — o modelo usa conhecimento geral. Few-shot: inclui 2-5 exemplos de input/output no prompt para mostrar o padrão desejado. Few-shot frequentemente dobra a qualidade sem custar nada além de tokens extras.
📌
Chain-of-Thought (CoT)
Técnica de prompt que instrui o modelo a mostrar o raciocínio passo a passo antes de dar a resposta final. "Pense passo a passo" literalmente melhora a acurácia em problemas de raciocínio porque os tokens intermediários condicionam os seguintes.
📌
Agente (AI Agent)
Sistema de IA que percebe seu ambiente, planeja ações, e executa ferramentas (busca, código, APIs) para alcançar um objetivo. Diferente de chatbots: agentes tomam ações no mundo, não só respondem texto. AutoGen, LangChain Agents, e Semantic Kernel Agents são frameworks para isso.
📌
Vector Store / Vector Database
Banco de dados especializado em armazenar e buscar embeddings por similaridade semântica. Qdrant, Pinecone, Weaviate são exemplos. Azure AI Search suporta busca vetorial. É o componente de armazenamento no pipeline de RAG.
📌
RLHF — Reinforcement Learning from Human Feedback
Técnica usada para alinhar LLMs com preferências humanas. Humanos avaliam respostas, essas avaliações viram sinal de recompensa, e o modelo é ajustado para gerar respostas que humanos preferem. É o que transformou GPT-3 em ChatGPT.
📌
Grounding
Ancoragem das respostas do modelo em fontes verificáveis — documentos, bases de dados, APIs. Um modelo "grounded" responde com base em informações reais fornecidas, não em memória de treinamento. RAG é a principal técnica de grounding. Reduz alucinações e aumenta rastreabilidade.

Onde Aprofundar Cada Termo

Este glossário é ponto de entrada — cada termo tem tratamento mais detalhado nos módulos seguintes. A sequência sugerida para aprofundamento:

  • LLM, Transformer, Atenção: Módulo 02 — LLMs por dentro
  • RAG, Embedding, Vector Store: Módulo 04 — RAG
  • Prompt, System Prompt, Few-shot, CoT: Módulo 03 — Prompt Engineering
  • Agente: Módulo 05 — Agentes: conceitos
  • Fine-tuning, RLHF: Módulos 02 e 09 — LLMs e Azure AI Foundry
  • Alucinação, Grounding: Módulo 13 — Governança e Segurança