01-05-01 — Glossário inicial
TL;DR
Os 8 termos que aparecem em toda conversa sobre IA. Você vai ouvir esses termos em reuniões, artigos e documentações — aqui estão as definições precisas sem enrolação, com exemplos práticos para o contexto de uma empresa de software.
Cada termo tem: definição em PT-BR → termo técnico em EN (como aparece em docs e código) → exemplo prático. Use como referência rápida ao longo dos próximos módulos.
Modelo model
Definição: Uma função matemática que recebe entrada (texto, imagem, áudio) e produz saída. Internamente, é uma estrutura de camadas com parâmetros numéricos que foram ajustados durante o treinamento para produzir boas respostas.
Analogia .NET: Pense num modelo como um assembly compilado — você o carrega e chama métodos nele, sem precisar entender o código-fonte. A diferença: os "métodos" foram aprendidos de dados, não escritos por um programador.
Exemplo: GPT-4o é um modelo. text-embedding-3-small é outro modelo (com função diferente). Você pode hospedar um modelo open-source localmente ou chamar um via API.
Pesos weights / parameters
Definição: Os valores numéricos dentro do modelo que foram ajustados durante o treinamento. São eles que armazenam o "conhecimento" do modelo. Um modelo com 70 bilhões de parâmetros tem 70 bilhões de números de ponto flutuante.
Exemplo prático: Quando você baixa um modelo do Hugging Face (ex: meta-llama/Llama-3-8B), está baixando um arquivo de ~16GB que contém esses pesos. O código da arquitetura é separado e muito menor.
Tamanhos comuns:
- Modelos pequenos: 1B–7B parâmetros (~2–14GB em disco)
- Modelos médios: 13B–34B parâmetros (~26–68GB)
- Modelos grandes: 70B+ parâmetros (requer múltiplas GPUs)
- GPT-4: estimado em ~1.8 trilhões (não confirmado)
"Parâmetros" e "pesos" são usados de forma intercambiável na maioria dos contextos. Tecnicamente, parâmetros incluem pesos e biases, mas a distinção raramente importa na prática.
Treinamento training
Definição: O processo de ajustar os pesos do modelo usando grandes volumes de dados. O modelo faz previsões, compara com o resultado esperado, calcula o erro (loss) e ajusta os pesos para errar menos — repetindo isso bilhões de vezes.
Escala real: Treinar GPT-3 custou ~$4.6M em compute. Treinar modelos frontier (GPT-4, Claude 3) custa dezenas a centenas de milhões de dólares. Você dificilmente vai treinar um modelo do zero — vai usar modelos pré-treinados.
Exemplo prático: A Impar não vai treinar um LLM. Vai usar modelos treinados pela OpenAI, Microsoft ou Meta e customizá-los com fine-tuning.
Inferência inference
Definição: Usar um modelo treinado para produzir saídas dado um input. É o que acontece quando você chama a API da OpenAI — o modelo executa um forward pass e gera a resposta token por token.
Diferença crítica: Treinamento ajusta os pesos. Inferência usa os pesos fixos para responder. Treinamento é caro e lento. Inferência é relativamente rápido (milissegundos a segundos).
Exemplo: client.chat.completions.create(...) no SDK da OpenAI é uma chamada de inferência. Os pesos do GPT-4o não mudam durante essa chamada.
Fine-tuning
Definição: Continuar o treinamento de um modelo pré-treinado com dados específicos do seu domínio, ajustando seus pesos para o seu caso de uso. Muito mais barato que treinar do zero — você parte de um modelo que já sabe falar, e ensina ele a falar sobre o seu assunto.
Quando usar: Quando você precisa de um estilo de resposta muito específico, terminologia técnica consistente, ou formato de output estruturado que não consegue com prompt engineering.
Quando NÃO usar: Fine-tuning não adiciona conhecimento novo de forma confiável (use RAG para isso). Não serve para "ensinar fatos" — serve para ajustar comportamento e estilo.
Azure OpenAI oferece fine-tuning de GPT-4o mini com interface web e SDK. Para projetos .NET corporativos, é o caminho mais rápido: você não precisa gerenciar GPU, apenas preparar os dados no formato JSONL e chamar a API. Custo: ~$0,003/1K tokens de treino + custo de hosting do modelo fine-tunado.
Parâmetros parameters
Definição: Ver Pesos acima. No contexto de "modelo com X bilhões de parâmetros", refere-se ao número total de valores numéricos treináveis na rede neural.
Regra geral: Mais parâmetros = modelo mais capaz (em geral) = mais memória GPU necessária = maior custo de inferência. Modelos menores e eficientes (ex: Phi-3 Mini com 3.8B) podem surpreender em tarefas específicas.
Tokens
Definição: Ver 01-04-01 Tokens para detalhes completos. Resumo: a menor unidade de texto que o modelo processa. Aproximadamente 0.75 palavras em inglês, 0.6 palavras em português.
Impacto financeiro: APIs cobram por token. Um documento de 10 páginas em português ≈ 5.000–7.000 tokens. A 10.000 chamadas/mês, o custo começa a ser significativo — dimensione sua context window com cuidado.
Janela de contexto context window
Definição: O número máximo de tokens que um modelo pode processar numa única chamada, somando input (prompt + documentos + histórico) e output (resposta). Tudo fora dessa janela é invisível para o modelo.
Limitação fundamental: O modelo não tem memória entre chamadas. Cada request é independente. Para criar a ilusão de "conversa longa", você precisa reenviar o histórico completo a cada chamada — o que consome tokens rapidamente.
| Modelo | Context window | Equivalente aproximado |
|---|---|---|
| GPT-4o | 128k tokens | ~100 páginas A4 |
| GPT-4o mini | 128k tokens | ~100 páginas A4 |
| Claude 3.7 Sonnet | 200k tokens | ~150 páginas A4 |
| Gemini 1.5 Pro | 1M tokens | ~750 páginas A4 |
| Llama 3.1 70B | 128k tokens | ~100 páginas A4 |
Esses 8 termos aparecem em toda documentação de LLMs, papers e discussões técnicas. Com esse vocabulário, você consegue ler a documentação do Azure OpenAI, Hugging Face e LangChain sem travar nos termos básicos.
Como isso se conecta
- 01-04-01 Tokens — definição detalhada de tokenização
- 01-04-02 Embeddings — o que acontece com tokens dentro do modelo
- 01-05-02 Desafio Hugging Face — aplicar o vocabulário ao explorar modelos reais