01-01-03 — A Era dos LLMs: GPT, BERT e a Corrida (2020–2026)

⏱ 15 min Fontes validadas em: 2026-04-29

TL;DR

GPT-3 em 2020 mostrou que escala resolve problemas. ChatGPT em novembro de 2022 transformou isso em produto de massa — 100 milhões de usuários em 2 meses, recorde histórico. De lá para cá: corrida entre OpenAI, Google, Anthropic, Meta e Microsoft. A pergunta não é mais "IA vai mudar meu negócio?" mas "em que velocidade e como não ficar para trás?"

GPT-3 (2020): Escala Como Estratégia

OpenAI publicou o GPT-3 em maio de 2020 com 175 bilhões de parâmetros — 100x maior que o GPT-2. O insight do paper era perturbador: muitos problemas que precisavam de fine-tuning específico podiam ser resolvidos apenas descrevendo a tarefa em linguagem natural (few-shot learning).

Você não precisava mais treinar — bastava pedir. "Traduza para português: 'hello world'" funcionava sem nenhuma etapa extra de treinamento.

💡
Insight — Emergência: GPT-3 demonstrou emergent capabilities — habilidades que não foram explicitamente treinadas mas aparecem como resultado da escala. Aritmética básica, analogias, raciocínio de senso comum. Isso violou a intuição anterior de que modelos fazem exatamente o que você treina. Escala produz surpresas.

O Momento ChatGPT (Novembro 2022)

A OpenAI tinha o GPT-3 desde 2020 disponível via API. Mas foi o ChatGPT — uma interface de chat simples em cima do GPT-3.5 — que explodiu. 1 milhão de usuários em 5 dias. 100 milhões em 2 meses. Nenhum produto na história cresceu tão rápido.

A diferença não era técnica — era UX. Uma caixa de texto onde você digitava em linguagem natural e recebia respostas úteis. Sem documentação, sem API key, sem SDK.

A técnica central que tornou o ChatGPT útil (em vez de apenas impressionante) foi o RLHFReinforcement Learning from Human Feedback. Humanos avaliavam respostas, e esse sinal foi usado para ajustar o modelo a ser mais útil e menos danoso.

GPT-4 e Multimodalidade (2023)

GPT-4, lançado em março de 2023, trouxe dois avanços principais:

  • Raciocínio melhorado: passou no Bar Exam (exame da ordem dos advogados dos EUA) no percentil 90, SAT de matemática no percentil 89
  • Multimodalidade: processava imagens além de texto — você podia enviar uma foto e perguntar sobre ela

A OpenAI não publicou o paper técnico detalhado do GPT-4 — primeiro modelo de ponta sem disclosure de arquitetura. A corrida competitiva mudou a cultura de publicação aberta que havia caracterizado o campo.

O Ecossistema em 2024–2026

graph TB subgraph Fechados["Modelos Fechados (Proprietários)"] GPT4["GPT-4o / o1 / o3\nOpenAI"] Claude["Claude 3.5/4\nAnthropic"] Gemini["Gemini 1.5/2\nGoogle"] end subgraph Abertos["Modelos Open-Weight"] Llama["Llama 3.x\nMeta"] Phi["Phi-4\nMicrosoft"] Mistral["Mistral 7B/8x7B\nMistral AI"] Qwen["Qwen 2.5\nAlibaba"] end subgraph Plataformas["Plataformas de Acesso"] Azure["Azure OpenAI\n+ GitHub Copilot"] VertexAI["Google Vertex AI"] AWS["Amazon Bedrock"] HF["Hugging Face Hub"] end GPT4 --> Azure Gemini --> VertexAI Llama --> HF Phi --> Azure Mistral --> HF style Fechados fill:#1a2a3a style Abertos fill:#1a3a1a style Plataformas fill:#3a1a1a

Claude (Anthropic)

Anthropic foi fundada em 2021 por ex-OpenAI, incluindo Dario e Daniela Amodei. O foco declarado é "AI safety" — modelos mais confiáveis e menos propensos a danos. Claude 3 Opus (2024) competiu diretamente com GPT-4 em benchmarks. Claude 3.5 Sonnet surpreendeu por ser melhor em programação que o GPT-4o em muitos benchmarks.

Gemini (Google)

Google lançou o Gemini em dezembro de 2023 depois de uma resposta corporativa às pressas ao ChatGPT (Bard, em fevereiro de 2023, que falhou num demo ao vivo). Gemini 1.5 Pro trouxe contexto de 1 milhão de tokens — absurdo para processamento de documentos longos. Gemini 2.0 em 2025 adicionou capacidades de agentes.

Llama (Meta)

Meta optou por liberar os pesos dos modelos Llama como open-weight (não exatamente open-source, mas você pode baixar e rodar localmente). Llama 3.1 com 405B parâmetros competiu com GPT-4 em benchmarks. Estratégia declarada: commoditizar a camada de modelo para lucrar com hardware (FAIR, infraestrutura).

Phi (Microsoft Research)

A Microsoft Research apostou numa direção oposta à escala: modelos pequenos, eficientes, com alta qualidade de dados de treinamento. Phi-3 com 3,8B parâmetros performava como modelos 10x maiores em raciocínio. Phi-4 (2024) continuou essa direção — rodável em laptop, viável para edge computing e aplicações on-premise.

🏢
Aplicação Microsoft: Microsoft investiu US$13 bilhões na OpenAI e integrou GPT-4 no GitHub Copilot, Microsoft 365 Copilot, e Azure OpenAI Service. Para uma empresa .NET como a Impar, o caminho mais direto para valor é Azure OpenAI + GitHub Copilot — já com contrato enterprise e compliance.

Impacto em Produtividade: O que os Dados Dizem

Alguns estudos com números concretos (todos pós-2022):

  • GitHub Copilot: estudo da GitHub com 95 desenvolvedores — 55% mais rápidos em tarefas de programação com Copilot vs. sem
  • McKinsey (2023): IA generativa pode automatizar atividades que representam 60-70% do tempo dos trabalhadores do conhecimento
  • Stanford HAI (2024): call centers com IA assistindo — produtividade aumentou 14% em média, com maior ganho para funcionários novos (+34%)
⚠️
Pegadinha: Estudos de produtividade com IA têm vieses sérios — quem mede é quem vende o produto, amostras pequenas, e efeito novidade. Cuidado com promessas de "10x produtividade". O ganho real é mais sutil: elimina tarefas de baixo valor, libera tempo para tarefas de alta complexidade. Para empresa de software, o impacto real está em code review assistido, documentação automática, e onboarding acelerado — não em "substituir desenvolvedores".

O Estado do Mercado em 2025–2026

Três dinâmicas simultâneas que definem o cenário atual:

  1. Commoditização de modelos: o que era GPT-4 em 2023 agora roda em Phi-4 ou Llama 3.1 de graça. O diferencial desloca para dados proprietários, fine-tuning, e integração
  2. Reasoning models: OpenAI o1/o3, DeepSeek R1 — modelos que "pensam antes de responder" usando chain-of-thought interno. Melhoram raciocínio matemático e lógico substancialmente
  3. Agentes: modelos que não só respondem mas executam ações — chamam APIs, escrevem arquivos, navegam na web, orquestram workflows. Paradigma de aplicação muda de "chatbot" para "software que se adapta"

Exemplo Prático: Custo por Token em Perspectiva

// Comparação de custo aproximado (valores de referência 2024)
// GPT-4o: $5/1M tokens input, $15/1M tokens output
// GPT-4o-mini: $0.15/1M tokens input, $0.60/1M tokens output
// Llama 3.1 (self-hosted): ~$0.10/1M tokens (custo de compute)

// Para processar 1000 contratos de 10 páginas (~5000 tokens cada):
// Total: 5.000.000 tokens de input

decimal gpt4oCost = 5_000_000m / 1_000_000m * 5.00m;      // $25.00
decimal gpt4oMiniCost = 5_000_000m / 1_000_000m * 0.15m;  // $0.75
decimal llamaCost = 5_000_000m / 1_000_000m * 0.10m;       // $0.50

Console.WriteLine($"GPT-4o: ${gpt4oCost}");          // $25.00
Console.WriteLine($"GPT-4o-mini: ${gpt4oMiniCost}"); // $0.75
Console.WriteLine($"Llama (self-hosted): ${llamaCost}"); // $0.50
// A escolha de modelo É uma decisão de arquitetura com impacto financeiro direto

Desafio

🎯 Desafio 01-01-03

Escolha um processo da Impar que envolve geração ou análise de texto (proposta comercial, relatório, code review, documentação). Estime:

  1. Quantas horas/mês essa atividade consome hoje?
  2. Qual modelo seria adequado (GPT-4o para qualidade, mini para volume)?
  3. Qual o custo mensal estimado se você processar via API?
  4. Qual o ROI se você economizar 30% do tempo atual?
📚
Para aprofundar: O paper do GPT-3 (arXiv 2005.14165) descreve few-shot learning em detalhe. Para o estado atual do mercado, o Stanford AI Index 2024 é a referência mais equilibrada.

Como isso se conecta

  • 🔗 01-04-01 — Entender tokens é essencial para calcular custo e limite de contexto dos modelos desta seção
  • 🔗 01-03-02 — Self-supervised learning é o que viabilizou treinar GPT-3 sem labels manuais em 300B tokens
  • 🔗 01-05-01 — Fine-tuning, inference, context window — todos os termos do glossário fazem sentido no contexto desta corrida

Fontes

  1. arXiv 2005.14165 — Language Models are Few-Shot Learners (GPT-3) — Brown et al., OpenAI, 2020
  2. arXiv 2303.08774 — GPT-4 Technical Report — OpenAI, 2023
  3. Wikipedia — ChatGPT — Crescimento, RLHF, e impacto cultural
  4. Microsoft Learn — Azure OpenAI Service — Modelos disponíveis e casos de uso
  5. Hugging Face — Meta Llama — Modelos open-weight disponíveis