12-01-01 — Por que observabilidade em IA e diferente de software tradicional

⏱ 10 minFontes validadas em: 2026-04-29

TL;DR

Software tradicional falha de forma deterministica: exception, timeout, null pointer. LLMs falham de forma probabilistica e silenciosa: a API retorna 200, o agente "funciona", mas a resposta e factualmente errada, tendenciosa ou cara demais. APM classico (New Relic, Datadog) nao detecta isso. Voce precisa de uma camada de observabilidade especifica para IA — que mede qualidade, custo por token e comportamento semantico, nao apenas latencia e uptime.

O que muda com LLMs

1. Falhas silenciosas

Em um sistema .NET tradicional, quando algo da errado voce recebe um erro. Com LLMs:

  • HTTP 200 OK — mas a resposta e uma alucinacao
  • HTTP 200 OK — mas o agente ignorou uma tool call critica
  • HTTP 200 OK — mas a resposta virou um loop infinito de raciocinio

Seu monitor de uptime vai mostrar tudo verde enquanto seus usuarios recebem lixo.

2. Nao-determinismo

A mesma entrada com temperature=0.7 pode gerar saidas completamente diferentes. Isso significa:

  • Testes unitarios nao funcionam da mesma forma
  • Um bug pode se manifestar em apenas 5% das requisicoes
  • Reproducibilidade exige logging de inputs/outputs completos

3. Custo variavel por requisicao

Diferente de uma API REST onde o custo de infraestrutura e relativamente previsivel, com LLMs:

  • Uma pergunta simples custa 500 tokens; uma complexa pode custar 50.000 tokens
  • Um usuario "curioso" pode gerar 100x mais custo que um usuario normal
  • Sem observabilidade de custo, voce descobre o problema na fatura do fim do mes

4. Sensibilidade a prompt

Mudancas minimas no system prompt podem degradar drasticamente a qualidade das respostas — sem nenhum erro de codigo. Um deployment que "melhorou o wording" do prompt pode introduzir regressoes que so aparecem em casos de borda raros.

⚠️ O problema do 99% de uptime
Seu agente pode ter 99.9% de uptime e ainda ser completamente inutil se 30% das respostas sao incorretas. SLA de disponibilidade e necessario mas insuficiente para aplicacoes de IA.

As tres dimensoes de observabilidade em IA

graph TD OBS["Observabilidade em IA"] --> OP["Operacional\n(latencia, erros, uptime)"] OBS --> CUSTO["Custo\n(tokens, $ por sessao, burn rate)"] OBS --> QUAL["Qualidade\n(corretude, relevancia, seguranca)"] OP --> APM["APM Classico\n(Datadog, App Insights)"] CUSTO --> TOKEN["Token Tracking\n(LangSmith, Langfuse)"] QUAL --> EVAL["Eval Frameworks\n(RAGAS, DeepEval, LLM-judge)"]

O que o APM classico consegue (e o que nao consegue)

MetricaAPM ClassicoObs. IA especifica
Latencia de API✅ Sim✅ Sim + por etapa (retrieval, generation)
Taxa de erro HTTP✅ Sim✅ Sim + erros semanticos
Throughput (req/s)✅ Sim✅ Sim
Custo por token❌ Nao✅ Sim
Qualidade da resposta❌ Nao✅ Sim (com evals)
Alucinacoes❌ Nao✅ Parcial (com grounding checks)
Tool calls executadas❌ Nao✅ Sim
Drift de qualidade❌ Nao✅ Sim (com baseline)

Minimo viavel de observabilidade para IA em producao

Para uma aplicacao de IA em producao, voce precisa no minimo:

  1. Logging completo de inputs/outputs: Cada prompt enviado e cada resposta recebida, com timestamp e user ID
  2. Contagem de tokens e custo: Por requisicao, por usuario, por dia
  3. Latencia por etapa: Separar tempo de retrieval, tempo de LLM call, tempo de pos-processamento
  4. Taxa de erros (tecnicos e semanticos): Erros de API + respostas que falharam em validacoes de qualidade
  5. Amostras para revisao humana: 1-5% das conversas revisadas manualmente ou via LLM-judge
💡 Comece simples
Nao precisa de uma plataforma cara no dia 1. Um simples log estruturado em JSON com input, output, tokens_used, latency_ms e cost_usd ja e muito melhor do que zero observabilidade.

Como isso se conecta

  • 12-01-02 Tracing: A solucao tecnica para rastrear o que acontece dentro de cada requisicao
  • 12-03-01 Metricas: Definicao concreta das metricas que enderecam as tres dimensoes
  • 12-03-02 Avaliacoes offline: Como medir qualidade de forma sistematica antes de ir para producao
  • 09 Foundry: Azure AI Foundry tem tracing e avaliacao integrados — bom ponto de partida para stacks Microsoft

Fontes

  1. OpenTelemetry — Semantic Conventions for Generative AI (2025)
  2. Anthropic Research — Challenges in evaluating AI systems (2024)
  3. Microsoft Docs — Evaluation approaches for generative AI (2025)