01-01-03 — A Era dos LLMs: GPT, BERT e a Corrida (2020–2026)
TL;DR
GPT-3 em 2020 mostrou que escala resolve problemas. ChatGPT em novembro de 2022 transformou isso em produto de massa — 100 milhões de usuários em 2 meses, recorde histórico. De lá para cá: corrida entre OpenAI, Google, Anthropic, Meta e Microsoft. A pergunta não é mais "IA vai mudar meu negócio?" mas "em que velocidade e como não ficar para trás?"
GPT-3 (2020): Escala Como Estratégia
OpenAI publicou o GPT-3 em maio de 2020 com 175 bilhões de parâmetros — 100x maior que o GPT-2. O insight do paper era perturbador: muitos problemas que precisavam de fine-tuning específico podiam ser resolvidos apenas descrevendo a tarefa em linguagem natural (few-shot learning).
Você não precisava mais treinar — bastava pedir. "Traduza para português: 'hello world'" funcionava sem nenhuma etapa extra de treinamento.
O Momento ChatGPT (Novembro 2022)
A OpenAI tinha o GPT-3 desde 2020 disponível via API. Mas foi o ChatGPT — uma interface de chat simples em cima do GPT-3.5 — que explodiu. 1 milhão de usuários em 5 dias. 100 milhões em 2 meses. Nenhum produto na história cresceu tão rápido.
A diferença não era técnica — era UX. Uma caixa de texto onde você digitava em linguagem natural e recebia respostas úteis. Sem documentação, sem API key, sem SDK.
A técnica central que tornou o ChatGPT útil (em vez de apenas impressionante) foi o RLHF — Reinforcement Learning from Human Feedback. Humanos avaliavam respostas, e esse sinal foi usado para ajustar o modelo a ser mais útil e menos danoso.
GPT-4 e Multimodalidade (2023)
GPT-4, lançado em março de 2023, trouxe dois avanços principais:
- Raciocínio melhorado: passou no Bar Exam (exame da ordem dos advogados dos EUA) no percentil 90, SAT de matemática no percentil 89
- Multimodalidade: processava imagens além de texto — você podia enviar uma foto e perguntar sobre ela
A OpenAI não publicou o paper técnico detalhado do GPT-4 — primeiro modelo de ponta sem disclosure de arquitetura. A corrida competitiva mudou a cultura de publicação aberta que havia caracterizado o campo.
O Ecossistema em 2024–2026
Claude (Anthropic)
Anthropic foi fundada em 2021 por ex-OpenAI, incluindo Dario e Daniela Amodei. O foco declarado é "AI safety" — modelos mais confiáveis e menos propensos a danos. Claude 3 Opus (2024) competiu diretamente com GPT-4 em benchmarks. Claude 3.5 Sonnet surpreendeu por ser melhor em programação que o GPT-4o em muitos benchmarks.
Gemini (Google)
Google lançou o Gemini em dezembro de 2023 depois de uma resposta corporativa às pressas ao ChatGPT (Bard, em fevereiro de 2023, que falhou num demo ao vivo). Gemini 1.5 Pro trouxe contexto de 1 milhão de tokens — absurdo para processamento de documentos longos. Gemini 2.0 em 2025 adicionou capacidades de agentes.
Llama (Meta)
Meta optou por liberar os pesos dos modelos Llama como open-weight (não exatamente open-source, mas você pode baixar e rodar localmente). Llama 3.1 com 405B parâmetros competiu com GPT-4 em benchmarks. Estratégia declarada: commoditizar a camada de modelo para lucrar com hardware (FAIR, infraestrutura).
Phi (Microsoft Research)
A Microsoft Research apostou numa direção oposta à escala: modelos pequenos, eficientes, com alta qualidade de dados de treinamento. Phi-3 com 3,8B parâmetros performava como modelos 10x maiores em raciocínio. Phi-4 (2024) continuou essa direção — rodável em laptop, viável para edge computing e aplicações on-premise.
Impacto em Produtividade: O que os Dados Dizem
Alguns estudos com números concretos (todos pós-2022):
- GitHub Copilot: estudo da GitHub com 95 desenvolvedores — 55% mais rápidos em tarefas de programação com Copilot vs. sem
- McKinsey (2023): IA generativa pode automatizar atividades que representam 60-70% do tempo dos trabalhadores do conhecimento
- Stanford HAI (2024): call centers com IA assistindo — produtividade aumentou 14% em média, com maior ganho para funcionários novos (+34%)
O Estado do Mercado em 2025–2026
Três dinâmicas simultâneas que definem o cenário atual:
- Commoditização de modelos: o que era GPT-4 em 2023 agora roda em Phi-4 ou Llama 3.1 de graça. O diferencial desloca para dados proprietários, fine-tuning, e integração
- Reasoning models: OpenAI o1/o3, DeepSeek R1 — modelos que "pensam antes de responder" usando chain-of-thought interno. Melhoram raciocínio matemático e lógico substancialmente
- Agentes: modelos que não só respondem mas executam ações — chamam APIs, escrevem arquivos, navegam na web, orquestram workflows. Paradigma de aplicação muda de "chatbot" para "software que se adapta"
Exemplo Prático: Custo por Token em Perspectiva
// Comparação de custo aproximado (valores de referência 2024)
// GPT-4o: $5/1M tokens input, $15/1M tokens output
// GPT-4o-mini: $0.15/1M tokens input, $0.60/1M tokens output
// Llama 3.1 (self-hosted): ~$0.10/1M tokens (custo de compute)
// Para processar 1000 contratos de 10 páginas (~5000 tokens cada):
// Total: 5.000.000 tokens de input
decimal gpt4oCost = 5_000_000m / 1_000_000m * 5.00m; // $25.00
decimal gpt4oMiniCost = 5_000_000m / 1_000_000m * 0.15m; // $0.75
decimal llamaCost = 5_000_000m / 1_000_000m * 0.10m; // $0.50
Console.WriteLine($"GPT-4o: ${gpt4oCost}"); // $25.00
Console.WriteLine($"GPT-4o-mini: ${gpt4oMiniCost}"); // $0.75
Console.WriteLine($"Llama (self-hosted): ${llamaCost}"); // $0.50
// A escolha de modelo É uma decisão de arquitetura com impacto financeiro direto
Desafio
🎯 Desafio 01-01-03
Escolha um processo da Impar que envolve geração ou análise de texto (proposta comercial, relatório, code review, documentação). Estime:
- Quantas horas/mês essa atividade consome hoje?
- Qual modelo seria adequado (GPT-4o para qualidade, mini para volume)?
- Qual o custo mensal estimado se você processar via API?
- Qual o ROI se você economizar 30% do tempo atual?
Como isso se conecta
- 🔗 01-04-01 — Entender tokens é essencial para calcular custo e limite de contexto dos modelos desta seção
- 🔗 01-03-02 — Self-supervised learning é o que viabilizou treinar GPT-3 sem labels manuais em 300B tokens
- 🔗 01-05-01 — Fine-tuning, inference, context window — todos os termos do glossário fazem sentido no contexto desta corrida
Fontes
- arXiv 2005.14165 — Language Models are Few-Shot Learners (GPT-3) — Brown et al., OpenAI, 2020
- arXiv 2303.08774 — GPT-4 Technical Report — OpenAI, 2023
- Wikipedia — ChatGPT — Crescimento, RLHF, e impacto cultural
- Microsoft Learn — Azure OpenAI Service — Modelos disponíveis e casos de uso
- Hugging Face — Meta Llama — Modelos open-weight disponíveis