01-01-02 — O Renascimento: Deep Learning e GPUs (2012–2020)
TL;DR
Em 2012, AlexNet ganhou a competição ImageNet com margem absurda usando uma GPU de videogame. Esse momento único combinou três fatores que estavam prontos: dados massivos (ImageNet), hardware paralelo barato (GPUs NVIDIA), e uma arquitetura que escalava (redes convolucionais profundas). De 2012 a 2020, o deep learning varreu benchmarks de visão, voz, texto e jogos. Transfer learning transformou o jogo: você não precisa mais treinar do zero.
O Momento AlexNet (2012)
Em setembro de 2012, Krizhevsky, Sutskever e Hinton submeteram o AlexNet à competição ImageNet Large Scale Visual Recognition Challenge (ILSVRC). O resultado foi um choque: erro top-5 de 15,3% — enquanto o segundo lugar ficou em 26,2%. Uma diferença de 10 pontos percentuais num benchmark que vinha melhorando frações de ponto por ano.
O que AlexNet usou que outros não usavam:
- GPUs para treinamento — duas NVIDIA GTX 580 (3GB cada), treinando em paralelo
- ReLU (Rectified Linear Unit) em vez de funções de ativação tradicionais — treina 6x mais rápido
- Dropout — técnica para evitar overfitting, aleatoriza neurônios durante treino
- Data augmentation — flipa, corta, distorce imagens para multiplicar os dados de treino
O Dataset que Mudou Tudo: ImageNet
Fei-Fei Li da Stanford começou o ImageNet em 2007 com uma visão simples: se os humanos aprendem a reconhecer objetos vendo milhões deles, máquinas deveriam também. Resultado: 14 milhões de imagens, 20.000 categorias, tudo rotulado via Amazon Mechanical Turk.
Antes do ImageNet, treinar visão computacional exigia datasets de 10.000 imagens. De repente havia 14 milhões. A escala importa — é um dos temas que você vai ver repetido ao longo de todo o módulo.
A Progressão 2012–2020
ResNet (2015) — Redes que Aprendem Profundo de Verdade
O problema de redes muito profundas: gradientes desaparecem ao propagar pelo backpropagation (você vai ver o conceito em 01-02-02). He et al. da Microsoft Research criaram conexões "residuais" — atalhos que pulam camadas. Resultado: redes de 152 camadas funcionando. ResNet ganhou ILSVRC 2015 com erro de 3,57% — melhor que humanos (5,1%).
GANs (2014) — Redes que Competem
Ian Goodfellow criou as Generative Adversarial Networks num insight numa discussão de bar em Montreal. A ideia: duas redes treinando juntas — um Generator que cria imagens falsas, e um Discriminator que tenta distinguir real de falso. Elas se forçam mutuamente a melhorar.
Em 2014, GANs geravam ruído com vaga forma humana. Em 2019, StyleGAN2 da NVIDIA gerava rostos fotorrealistas indistinguíveis de humanos reais. Sites como "thispersondoesnotexist.com" rodavam StyleGAN.
BERT (2018) — Texto Entendido em Contexto
Google lançou o BERT (Bidirectional Encoder Representations from Transformers) em outubro de 2018. O insight era bidirecional: ao processar "banco" na frase "sentei no banco do parque", BERT olhava palavras antes e depois para desambiguar o contexto — diferente de modelos anteriores que liam esquerda para direita.
BERT foi pré-treinado em 3,3 bilhões de palavras da Wikipedia e BookCorpus. Depois, você faz fine-tuning em qualquer tarefa de NLP com poucos dados. Era o começo da era de modelos pré-treinados reutilizáveis.
GPT-2 (2019) — Geração de Texto que Assusta
OpenAI lançou o GPT-2 com 1,5 bilhão de parâmetros e se recusou inicialmente a publicar o modelo completo, alegando que era "muito perigoso". O modelo gerava parágrafos coerentes a partir de um prompt. Lendo em 2026, parece tímido. Em 2019, era perturbador.
Transfer Learning: O Game Changer
A ideia central que transformou a prática de ML: treinar um modelo enorme em dados massivos uma vez, depois reutilizá-lo para tarefas específicas com poucos dados.
Analogia direta com desenvolvimento de software: você não reescreve o .NET runtime para cada aplicação. Você reutiliza o framework e escreve a lógica específica. Com transfer learning, o modelo pré-treinado é o framework — você adiciona as últimas camadas para sua tarefa específica.
Por que 2012–2020 foi Diferente dos Ciclos Anteriores
Três fatores simultâneos, todos necessários:
- Dados: internet, redes sociais, sensores — pela primeira vez havia dados em escala suficiente
- Hardware: GPUs baratas (CUDA 2007 + gaming market subsidizing compute)
- Algoritmos: backpropagation já existia nos anos 80, mas só ficou prático com ReLU, Dropout e arquiteturas certas
A diferença para os ciclos anteriores: os resultados eram verificáveis, mensuráveis e reproduzíveis. Benchmarks públicos como ImageNet eliminavam a possibilidade de hype sem substância.
Timeline do Renascimento
Exemplo Prático: Transfer Learning em C#
// ML.NET com modelo pré-treinado — transfer learning em .NET
// Você usa ResNet pré-treinado no ImageNet e adapta para seu problema
var mlContext = new MLContext();
// Carrega pipeline com modelo pré-treinado
var pipeline = mlContext.Transforms
.LoadImages("ImagePath", nameof(ImageData.ImagePath))
.Append(mlContext.Transforms.ResizeImages(
"Image", 224, 224, "ImagePath"))
.Append(mlContext.Transforms.ExtractPixels("Image"))
.Append(mlContext.Model.LoadTensorFlowModel("resnet_v2_50_frozen.pb")
.ScoreTensorFlowModel(
outputColumnNames: new[] { "softmax2" },
inputColumnNames: new[] { "input" },
addBatchDimensionInput: true));
// Treina apenas as últimas camadas com seus dados específicos
var model = pipeline.Fit(trainingData);
Desafio
🎯 Desafio 01-01-02
Acesse o Papers With Code — State of the Art e escolha qualquer benchmark de visão ou NLP. Responda:
- Qual foi o top-1 em 2018, 2020, 2023 e hoje?
- O modelo top atual usa transfer learning ou treina do zero?
- Qual seria o custo estimado de treinar o modelo top hoje (procure no paper)?
Como isso se conecta
- 🔗 01-01-03 — GPT-3 em 2020 é a continuação direta desta trajetória — escala resolve problemas que arquitetura não conseguia
- 🔗 01-02-03 — CNNs (AlexNet, ResNet) e Transformers (BERT, GPT) são as arquiteturas concretas desta era
- 🔗 01-03-02 — BERT usa self-supervised learning (masked language modeling) — chave para entender como ele foi treinado sem labels manuais
Fontes
- arXiv 1512.03385 — Deep Residual Learning (ResNet) — He et al., Microsoft Research, 2015
- arXiv 1810.04805 — BERT — Devlin et al., Google, 2018
- arXiv 1706.03762 — Attention Is All You Need — Vaswani et al., Google, 2017
- Wikipedia — AlexNet — Contexto histórico e impacto na competição ImageNet
- Wikipedia — ImageNet — Criação, escala e o ILSVRC