01-05-01 — Glossário inicial

⏱ 10 min Fontes validadas em: 2026-04-29

TL;DR

Os 8 termos que aparecem em toda conversa sobre IA. Você vai ouvir esses termos em reuniões, artigos e documentações — aqui estão as definições precisas sem enrolação, com exemplos práticos para o contexto de uma empresa de software.

💡 Como usar este glossário

Cada termo tem: definição em PT-BR → termo técnico em EN (como aparece em docs e código) → exemplo prático. Use como referência rápida ao longo dos próximos módulos.

Modelo model

Definição: Uma função matemática que recebe entrada (texto, imagem, áudio) e produz saída. Internamente, é uma estrutura de camadas com parâmetros numéricos que foram ajustados durante o treinamento para produzir boas respostas.

Analogia .NET: Pense num modelo como um assembly compilado — você o carrega e chama métodos nele, sem precisar entender o código-fonte. A diferença: os "métodos" foram aprendidos de dados, não escritos por um programador.

Exemplo: GPT-4o é um modelo. text-embedding-3-small é outro modelo (com função diferente). Você pode hospedar um modelo open-source localmente ou chamar um via API.

Pesos weights / parameters

Definição: Os valores numéricos dentro do modelo que foram ajustados durante o treinamento. São eles que armazenam o "conhecimento" do modelo. Um modelo com 70 bilhões de parâmetros tem 70 bilhões de números de ponto flutuante.

Exemplo prático: Quando você baixa um modelo do Hugging Face (ex: meta-llama/Llama-3-8B), está baixando um arquivo de ~16GB que contém esses pesos. O código da arquitetura é separado e muito menor.

Tamanhos comuns:

Modelos pequenos: 1B–7B parâmetros (~2–14GB em disco)
Modelos médios: 13B–34B parâmetros (~26–68GB)
Modelos grandes: 70B+ parâmetros (requer múltiplas GPUs)
GPT-4: estimado em ~1.8 trilhões (não confirmado)

⚠️ Atenção

"Parâmetros" e "pesos" são usados de forma intercambiável na maioria dos contextos. Tecnicamente, parâmetros incluem pesos e biases, mas a distinção raramente importa na prática.

Treinamento training

Definição: O processo de ajustar os pesos do modelo usando grandes volumes de dados. O modelo faz previsões, compara com o resultado esperado, calcula o erro (loss) e ajusta os pesos para errar menos — repetindo isso bilhões de vezes.

Escala real: Treinar GPT-3 custou ~$4.6M em compute. Treinar modelos frontier (GPT-4, Claude 3) custa dezenas a centenas de milhões de dólares. Você dificilmente vai treinar um modelo do zero — vai usar modelos pré-treinados.

Exemplo prático: A Impar não vai treinar um LLM. Vai usar modelos treinados pela OpenAI, Microsoft ou Meta e customizá-los com fine-tuning.

Inferência inference

Definição: Usar um modelo treinado para produzir saídas dado um input. É o que acontece quando você chama a API da OpenAI — o modelo executa um forward pass e gera a resposta token por token.

Diferença crítica: Treinamento ajusta os pesos. Inferência usa os pesos fixos para responder. Treinamento é caro e lento. Inferência é relativamente rápido (milissegundos a segundos).

Exemplo: client.chat.completions.create(...) no SDK da OpenAI é uma chamada de inferência. Os pesos do GPT-4o não mudam durante essa chamada.

Fine-tuning

Definição: Continuar o treinamento de um modelo pré-treinado com dados específicos do seu domínio, ajustando seus pesos para o seu caso de uso. Muito mais barato que treinar do zero — você parte de um modelo que já sabe falar, e ensina ele a falar sobre o seu assunto.

Quando usar: Quando você precisa de um estilo de resposta muito específico, terminologia técnica consistente, ou formato de output estruturado que não consegue com prompt engineering.

Quando NÃO usar: Fine-tuning não adiciona conhecimento novo de forma confiável (use RAG para isso). Não serve para "ensinar fatos" — serve para ajustar comportamento e estilo.

🔷 Microsoft / Azure

Azure OpenAI oferece fine-tuning de GPT-4o mini com interface web e SDK. Para projetos .NET corporativos, é o caminho mais rápido: você não precisa gerenciar GPU, apenas preparar os dados no formato JSONL e chamar a API. Custo: ~$0,003/1K tokens de treino + custo de hosting do modelo fine-tunado.

Parâmetros parameters

Definição: Ver Pesos acima. No contexto de "modelo com X bilhões de parâmetros", refere-se ao número total de valores numéricos treináveis na rede neural.

Regra geral: Mais parâmetros = modelo mais capaz (em geral) = mais memória GPU necessária = maior custo de inferência. Modelos menores e eficientes (ex: Phi-3 Mini com 3.8B) podem surpreender em tarefas específicas.

Tokens

Definição: Ver 01-04-01 Tokens para detalhes completos. Resumo: a menor unidade de texto que o modelo processa. Aproximadamente 0.75 palavras em inglês, 0.6 palavras em português.

Impacto financeiro: APIs cobram por token. Um documento de 10 páginas em português ≈ 5.000–7.000 tokens. A 10.000 chamadas/mês, o custo começa a ser significativo — dimensione sua context window com cuidado.

Janela de contexto context window

Definição: O número máximo de tokens que um modelo pode processar numa única chamada, somando input (prompt + documentos + histórico) e output (resposta). Tudo fora dessa janela é invisível para o modelo.

Limitação fundamental: O modelo não tem memória entre chamadas. Cada request é independente. Para criar a ilusão de "conversa longa", você precisa reenviar o histórico completo a cada chamada — o que consome tokens rapidamente.

Modelo	Context window	Equivalente aproximado
GPT-4o	128k tokens	~100 páginas A4
GPT-4o mini	128k tokens	~100 páginas A4
Claude 3.7 Sonnet	200k tokens	~150 páginas A4
Gemini 1.5 Pro	1M tokens	~750 páginas A4
Llama 3.1 70B	128k tokens	~100 páginas A4

🔗 Conexão

Esses 8 termos aparecem em toda documentação de LLMs, papers e discussões técnicas. Com esse vocabulário, você consegue ler a documentação do Azure OpenAI, Hugging Face e LangChain sem travar nos termos básicos.

Como isso se conecta

01-04-01 Tokens — definição detalhada de tokenização
01-04-02 Embeddings — o que acontece com tokens dentro do modelo
01-05-02 Desafio Hugging Face — aplicar o vocabulário ao explorar modelos reais